Nvidia Mellanox ConnectX NIC 裝置逾時和重設

Summary: AX 和 ACP 對於 Azure 客戶,在安裝 SBE 4.1.2506.n 或 4.1.2507.n 搭配 NIC 驅動程式 25.1.26647 後,執行 Azure 本機解決方案的客戶可能會在多個節點上頻繁發生網路介面卡重設

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

概觀

在安裝 SBE 版本 4.2.2506.n (AX) 或 4.2.2507.n (MC) 後,其機器具有 NVIDIA ConnectX NIC (網路介面卡) 的 Azure 本機例項可能會遇到警告層級的 NDIS 事件 ID 10400 和 mlx5 事件 ID 386。

 

 

下列命令可用於搜尋這些事件的事件紀錄:

Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message

這些事件涉及 ConnectX NIC 重設,這可能會導致網路中斷、電腦從 Azure 本機叢集逐出,以及偶爾的錯誤檢查事件。在具有 mlx5.sys驅動程式版本 25.1.26647.0 和由 SBE 4.2.2506.n (AX) 或 4.2.2507.n (MC) 安裝的對應 ConnectX 韌體的某些工作負荷下,會觀察到此狀況。

 

識別受影響的 Azure 本機例項

當滿足以下所有條件時,可能會發生有問題的行為:

  • 這些電腦是 Azure 本地例項的成員
  • 機器已安裝一或多個 ConnectX NIC
  • Azure 本機例項上已安裝 SBE 4.2.2506.n (AX) 或 4.2.2507.n (MC)
  • 執行中的 ConnectX NIC 驅動程式版本為 25.1.26647.0

 

識別已安裝的 ConnectX 韌體版本

可以在 Azure 本地實例中的每台電腦上執行以下過程。

  1. 連線至 iDRAC Web 介面,選取系統下拉式功能表和清查。
  2. 展開韌體清查,並尋找描述中具有工作 ConnectX 的元件。記下已安裝的韌體版本。

 

 

識別已安裝的 ConnectX 驅動程式版本

可以在 Azure 本地實例中的每台電腦上執行以下過程。

  1. 在主機作業系統中執行下列命令,以識別執行中的 ConnectX 驅動程式版本:
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

ConnectX 驅動程式和韌體版本

元件

受影響的版本

補救版本

補救版本下載

ConnectX 驅動程式

25.1.26647.0

24.4.26429.0

N/A (SBE 裝載)

ConnectX-6 LX 韌體

26.44.10.36

26.41.10.00

下午 1 點 4 分

ConnectX-6 DX 韌體

22.44.10.36

22.41.10.00

2CMVW

ConnectX-5 EN/EX 韌體

16.35.40.30

16.35.30.06

XY16R

ConnectX-4 LX

14.32.21.02

14.32.20.04

XGP2X

 

 

Cause

在具有 SBE 4.2.2506.n (AX) 或 4.2.2507.n (MC) 安裝之對應 ConnectX 韌體mlx5.sys驅動程式版本 25.1.26647.0 和對應的 ConnectX 韌體下,Dell AX 和 MC Azure 本機解決方案已觀察到此狀況。 

Resolution

實施補救措施

在安裝 SBE 4.2.2509.n (AX) 之前,降級 ConnectX NIC 韌體

在受影響的 Azure 本地實例中的每台電腦上執行以下過程。

  1. 連線至 iDRAC Web 介面,選取維護下拉式功能表,然後選取系統更新。
  2. 按一下選擇檔案按鈕,然後選取要為機器中的 ConnectX NIC 安裝的韌體檔案可執行檔。按一下開啟按鈕以完成選取。
  3. 按一下上傳按鈕以開始上傳程序。
  4. 上傳程序完成後,請按一下上傳檔案旁的加號,以查看此韌體檔案適用的元件。隨即會顯示目前安裝的韌體版本和可用的韌體版本。可用的韌體版本就是要安裝的版本。
     
  5. 按一下要安裝的韌體檔案旁的核取方塊,然後選取安裝。此動作將進行 ConnectX NIC 韌體升級,韌體升級將在稍後的步驟中主機作業系統重新開機時完成。
  6. 編隊安裝作業將被添加到作業佇列中。按一下工作佇列按鈕,檢視工作佇列中的工作。
  7. 工作進度隨即顯示。
  8. 等待工作狀態顯示 100% 完成。請注意指示的伺服器重新開機等待狀態。
  9. 按一下生命週期記錄,並再次注意韌體更新會在伺服器重新開機後生效。伺服器將在後面的步驟中作為 SBE 安裝的一部分自動重新啟動。

 

安裝 SBE 4.2.2509.n

使用標準 SBE 安裝程序安裝 SBE 4.2.2509.n。安裝 SBE 4.2.2509.n 將會安裝叫用、安裝暫存的 ConnectX 韌體、安裝 SBE 4.2.2509.n 驅動程式和韌體裝載。在安裝 SBE 4.2.2509.n 的過程中,也會安裝 MLX5 驅動程式版本 24.4.26429.0。

 

驗證補救成功

成功安裝 SBE 4.2.2509.n 後,請確認 ConnectX 驅動程式和韌體版本。

確認已安裝 ConnectX 韌體版本

可以在 Azure 本地實例中的每台電腦上執行以下過程。

  1. 連線至 iDRAC Web 介面,選取系統下拉式功能表和清查。
  2. 展開韌體清查,並尋找描述中具有工作 ConnectX 的元件。記下已安裝的韌體版本。

確認已安裝 ConnectX 驅動程式版本

可以在 Azure 本地實例中的每台電腦上執行以下過程。

  1. 在主機作業系統中執行下列命令,以識別執行中的 ConnectX 驅動程式版本:
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

 

 

注意:若為 MC 節點,請使用本 KB 中的方法手動將 Nvidia 驅動程式和韌體降級,直到下一次 Apex Cloud Platform 軟體更新為止。 

 

注意:如果您已套用 SBE 4.2.2509.n,但並未將 Mellanox 韌體降級,請使用以下步驟將韌體降級至與驅動程式相同的層級。 

 

  1.       暫停並排空節點。
  2.       在 C 中暫停 BitLocker:  -> 
    Suspend-BitLocker -MountPoint "C:" -RebootCount 0
  3.       請按照「實施補救」一節中的步驟,根據 NIC 型號叫用適當的 DUP 來執行韌體降級,然後重新啟動系統。
  4.      在 iDRAC 中確認韌體降級已成功完成。
  5.      確認 Mellanox nic 中的連線能力正確,然後恢復 BitLocker:  
    Resume-BitLocker -MountPoint "C:"
  6.      將節點從維護模式中移除。等待儲存工作完成,然後再暫停任何其他節點。 

 

Affected Products

APEX MC-660, APEX MC-760, ax-650, AX-6515, AX-660, AX-750, AX-7525, AX-760
Article Properties
Article Number: 000376360
Article Type: Solution
Last Modified: 10 Oct 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.