Nvidia Mellanox ConnectX NIC Časový limit a resetování zařízení

Summary: AX a ACP U Azure můžou zákazníci, kteří používají místní řešení Azure, po instalaci SBE 4.1.2506.n nebo 4.1.2507.n s ovladačem síťové karty 25.1.26647 docházet k častému resetování síťové karty na více uzlech ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Přehled

U místních instancí Azure s počítači, které mají síťovou kartu NVIDIA ConnectX NIC (Network Interface Card), může po instalaci SBE verze 4.2.2506.n (AX) nebo 4.2.2507.n (MC) docházet k upozornění s ID události NDIS 10400 a ID události mlx5 s ID 386.

 

 

K vyhledání protokolu událostí pro tyto události lze použít následující příkaz:

Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message

Tyto události zahrnují resetování síťové karty ConnectX, což může vést k přerušení sítě, vyřazení počítače z místního clusteru Azure a občasným událostem kontroly chyb. Tento stav byl pozorován u určitých úloh s ovladačem mlx5.sys verze 25.1.26647.0 a odpovídajícího firmwaru ConnectX nainstalovaného pomocí SBE 4.2.2506.n (AX) nebo 4.2.2507.n (MC).

 

Identifikace dotčených místních instancí Azure

K problematickému chování může dojít, pokud jsou splněny všechny následující podmínky:

  • Počítače jsou členy místní instance Azure
  • Počítače mají nainstalovanou jednu nebo více síťových karet ConnectX
  • V místní instanci Azure je nainstalovaná verze SBE 4.2.2506.n (AX) nebo 4.2.2507.n (MC).
  • Ovladač síťové karty ConnectX je verze 25.1.26647.0

 

Zjištění nainstalované verze firmwaru ConnectX

Následující postup je možné provést na každém počítači v místní instanci Azure.

  1. Připojte se k webovému rozhraní řadiče iDRAC, vyberte možnost System drop down a Inventory.
  2. Rozbalte položku Firmware Inventory a vyhledejte komponenty s názvem ConnectX v popisu. Poznamenejte si nainstalovanou verzi firmwaru.

 

 

Zjištění nainstalované verze ovladače ConnectX

Následující postup je možné provést na každém počítači v místní instanci Azure.

  1. Spuštěním následujícího příkazu v hostitelském operačním systému zjistěte spuštěnou verzi ovladače ConnectX:
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

Verze ovladače a firmwaru ConnectX

Komponentní

Dotčená verze

Verze nápravy

Stažení verze nápravy

Ovladač ConnectX

25.1.26647.0

24.4.26429.0

Není k dispozici (datová část SBE)

Firmware ConnectX-6 LX

26.44.10.36

26.41.10.00

1H4PM

Firmware ConnectX-6 DX

22.44.10.36

22.41.10.00

2CMVW

ConnectX-5 EN/EX FW

16.35.40.30

16.35.30.06

XY16R

ConnectX-4 LX

14.32.21.02

14.32.20.04

XGP2X

 

 

Cause

Tento stav byl pozorován u místních řešení Dell AX a MC Azure v určitých úlohách s ovladačem mlx5.sys verze 25.1.26647.0 a odpovídajícím firmwarem ConnectX nainstalovaným v systému SBE 4.2.2506.n (AX) nebo 4.2.2507.n (MC). 

Resolution

Implementace nápravy

Downgrade firmwaru síťové karty ConnectX Před instalací SBE 4.2.2509.n (AX)

Na každém počítači v příslušné místní instanci Azure proveďte následující postup.

  1. Připojte se k webovému rozhraní řadiče iDRAC, v rozevíracím seznamu Maintenance a System Update vyberte možnost System Update.
  2. Klikněte na tlačítko Choose File a vyberte spustitelný soubor firmwaru, který chcete nainstalovat pro kartu ConnectX NIC ve vašem počítači. Kliknutím na tlačítko Otevřít dokončete výběr.
  3. Kliknutím na tlačítko Upload zahájíte proces nahrávání.
  4. Po dokončení procesu nahrávání klikněte na znaménko plus vedle nahraného souboru. Zobrazí se součásti, na které se tento soubor firmwaru vztahuje. Zobrazí se aktuálně nainstalovaná verze firmwaru a dostupná verze firmwaru. Dostupná verze firmwaru je verze, která bude nainstalována.
     
  5. Klikněte na zaškrtávací políčko vedle souboru firmwaru, který chcete nainstalovat, a vyberte možnost Instalovat. Tato akce rozfázuje upgrade firmwaru síťové karty ConnectX: upgrade firmwaru bude dokončen při restartování hostitelského operačního systému během pozdějšího kroku.
  6. Úloha instalace formace bude přidána do fronty úloh. Kliknutím na tlačítko Job Queue zobrazíte úlohu ve frontě úloh.
  7. Zobrazí se průběh úlohy.
  8. Počkejte, až se stav úlohy zobrazí jako 100% dokončená. Poznamenejte si uvedený stav "Server Reboot Pending (Čeká se na restartování").
  9. Klikněte na protokol Lifecycle a znovu si všimněte, že aktualizace firmwaru bude účinná po restartování serveru. Server se automaticky restartuje v rámci instalace SBE v pozdějším kroku.

 

Instalace SBE 4.2.2509.n

Nainstalujte SBE 4.2.2509.n pomocí standardního instalačního procesu SBE. Instalace SBE 4.2.2509.n nainstaluje vyvolání instalace staged firmwaru ConnectX, nainstaluje ovladač SBE 4.2.2509.n a datovou část firmwaru. V rámci instalace SBE 4.2.2509.n bude také nainstalován ovladač MLX5 verze 24.4.26429.0.

 

Ověření úspěšné nápravy

Po úspěšné instalaci souboru SBE 4.2.2509.n ověřte ovladač a firmware ConnectX.

Ověření nainstalované verze firmwaru ConnectX

Následující postup je možné provést na každém počítači v místní instanci Azure.

  1. Připojte se k webovému rozhraní řadiče iDRAC, vyberte možnost System drop down a Inventory.
  2. Rozbalte položku Firmware Inventory a vyhledejte komponenty s názvem ConnectX v popisu. Poznamenejte si nainstalovanou verzi firmwaru.

Ověřte nainstalovanou verzi ovladače ConnectX

Následující postup je možné provést na každém počítači v místní instanci Azure.

  1. Spuštěním následujícího příkazu v hostitelském operačním systému zjistěte spuštěnou verzi ovladače ConnectX:
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

 

 

POZNÁMKA: V případě uzlů MC použijte metody uvedené v tomto článku k ručnímu downgradu ovladače a firmwaru Nvidia až do příští aktualizace softwaru Apex Cloud Platform. 

 

POZNÁMKA: Pokud jste již použili verzi SBE 4.2.2509.n, ale neprovedli downgrade firmwaru Mellanox, proveďte níže uvedený postup pro downgrade firmwaru na stejnou úroveň jako ovladač. 

 

  1.       Pozastavte a vyprázdněte uzel.
  2.       Pozastavit nástroj BitLocker v C:  -> 
    Suspend-BitLocker -MountPoint "C:" -RebootCount 0
  3.       Postupujte podle kroků v části "Implementace nápravy" a proveďte downgrade firmwaru vyvoláním příslušného balíčku DUP v závislosti na modelu síťové karty a restartujte systém.
  4.      V řadiči iDRAC ověřte, zda downgrade firmwaru proběhl úspěšně.
  5.      Ověřte správné připojení v síťových kartách Mellanox a obnovte nástroj BitLocker:  
    Resume-BitLocker -MountPoint "C:"
  6.      Odeberte uzel z režimu údržby. Před pozastavením jakéhokoli jiného uzlu počkejte na dokončení úloh úložiště. 

 

Affected Products

APEX MC-660, APEX MC-760, ax-650, AX-6515, AX-660, AX-750, AX-7525, AX-760
Article Properties
Article Number: 000376360
Article Type: Solution
Last Modified: 10 Oct 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.