Nvidia Mellanox ConnectX NIC Časový limit a resetování zařízení
Summary: AX a ACP U Azure můžou zákazníci, kteří používají místní řešení Azure, po instalaci SBE 4.1.2506.n nebo 4.1.2507.n s ovladačem síťové karty 25.1.26647 docházet k častému resetování síťové karty na více uzlech ...
Symptoms
Přehled
U místních instancí Azure s počítači, které mají síťovou kartu NVIDIA ConnectX NIC (Network Interface Card), může po instalaci SBE verze 4.2.2506.n (AX) nebo 4.2.2507.n (MC) docházet k upozornění s ID události NDIS 10400 a ID události mlx5 s ID 386.


K vyhledání protokolu událostí pro tyto události lze použít následující příkaz:
Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message
Tyto události zahrnují resetování síťové karty ConnectX, což může vést k přerušení sítě, vyřazení počítače z místního clusteru Azure a občasným událostem kontroly chyb. Tento stav byl pozorován u určitých úloh s ovladačem mlx5.sys verze 25.1.26647.0 a odpovídajícího firmwaru ConnectX nainstalovaného pomocí SBE 4.2.2506.n (AX) nebo 4.2.2507.n (MC).
Identifikace dotčených místních instancí Azure
K problematickému chování může dojít, pokud jsou splněny všechny následující podmínky:
- Počítače jsou členy místní instance Azure
- Počítače mají nainstalovanou jednu nebo více síťových karet ConnectX
- V místní instanci Azure je nainstalovaná verze SBE 4.2.2506.n (AX) nebo 4.2.2507.n (MC).
- Ovladač síťové karty ConnectX je verze 25.1.26647.0
Zjištění nainstalované verze firmwaru ConnectX
Následující postup je možné provést na každém počítači v místní instanci Azure.
- Připojte se k webovému rozhraní řadiče iDRAC, vyberte možnost System drop down a Inventory.
- Rozbalte položku Firmware Inventory a vyhledejte komponenty s názvem ConnectX v popisu. Poznamenejte si nainstalovanou verzi firmwaru.

Zjištění nainstalované verze ovladače ConnectX
Následující postup je možné provést na každém počítači v místní instanci Azure.
- Spuštěním následujícího příkazu v hostitelském operačním systému zjistěte spuštěnou verzi ovladače ConnectX:
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

Verze ovladače a firmwaru ConnectX
|
Komponentní |
Dotčená verze |
Verze nápravy |
Stažení verze nápravy |
|
Ovladač ConnectX |
25.1.26647.0 |
24.4.26429.0 |
Není k dispozici (datová část SBE) |
|
Firmware ConnectX-6 LX |
26.44.10.36 |
26.41.10.00 |
|
|
Firmware ConnectX-6 DX |
22.44.10.36 |
22.41.10.00 |
|
|
ConnectX-5 EN/EX FW |
16.35.40.30 |
16.35.30.06 |
|
|
ConnectX-4 LX |
14.32.21.02 |
14.32.20.04 |
Cause
Tento stav byl pozorován u místních řešení Dell AX a MC Azure v určitých úlohách s ovladačem mlx5.sys verze 25.1.26647.0 a odpovídajícím firmwarem ConnectX nainstalovaným v systému SBE 4.2.2506.n (AX) nebo 4.2.2507.n (MC).
Resolution
Implementace nápravy
Downgrade firmwaru síťové karty ConnectX Před instalací SBE 4.2.2509.n (AX)
Na každém počítači v příslušné místní instanci Azure proveďte následující postup.
- Připojte se k webovému rozhraní řadiče iDRAC, v rozevíracím seznamu Maintenance a System Update vyberte možnost System Update.
- Klikněte na tlačítko Choose File a vyberte spustitelný soubor firmwaru, který chcete nainstalovat pro kartu ConnectX NIC ve vašem počítači. Kliknutím na tlačítko Otevřít dokončete výběr.

- Kliknutím na tlačítko Upload zahájíte proces nahrávání.

- Po dokončení procesu nahrávání klikněte na znaménko plus vedle nahraného souboru. Zobrazí se součásti, na které se tento soubor firmwaru vztahuje. Zobrazí se aktuálně nainstalovaná verze firmwaru a dostupná verze firmwaru. Dostupná verze firmwaru je verze, která bude nainstalována.
- Klikněte na zaškrtávací políčko vedle souboru firmwaru, který chcete nainstalovat, a vyberte možnost Instalovat. Tato akce rozfázuje upgrade firmwaru síťové karty ConnectX: upgrade firmwaru bude dokončen při restartování hostitelského operačního systému během pozdějšího kroku.

- Úloha instalace formace bude přidána do fronty úloh. Kliknutím na tlačítko Job Queue zobrazíte úlohu ve frontě úloh.

- Zobrazí se průběh úlohy.

- Počkejte, až se stav úlohy zobrazí jako 100% dokončená. Poznamenejte si uvedený stav "Server Reboot Pending (Čeká se na restartování").

- Klikněte na protokol Lifecycle a znovu si všimněte, že aktualizace firmwaru bude účinná po restartování serveru. Server se automaticky restartuje v rámci instalace SBE v pozdějším kroku.

Instalace SBE 4.2.2509.n
Nainstalujte SBE 4.2.2509.n pomocí standardního instalačního procesu SBE. Instalace SBE 4.2.2509.n nainstaluje vyvolání instalace staged firmwaru ConnectX, nainstaluje ovladač SBE 4.2.2509.n a datovou část firmwaru. V rámci instalace SBE 4.2.2509.n bude také nainstalován ovladač MLX5 verze 24.4.26429.0.
Ověření úspěšné nápravy
Po úspěšné instalaci souboru SBE 4.2.2509.n ověřte ovladač a firmware ConnectX.
Ověření nainstalované verze firmwaru ConnectX
Následující postup je možné provést na každém počítači v místní instanci Azure.
- Připojte se k webovému rozhraní řadiče iDRAC, vyberte možnost System drop down a Inventory.
- Rozbalte položku Firmware Inventory a vyhledejte komponenty s názvem ConnectX v popisu. Poznamenejte si nainstalovanou verzi firmwaru.

Ověřte nainstalovanou verzi ovladače ConnectX
Následující postup je možné provést na každém počítači v místní instanci Azure.
- Spuštěním následujícího příkazu v hostitelském operačním systému zjistěte spuštěnou verzi ovladače ConnectX:
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

POZNÁMKA: V případě uzlů MC použijte metody uvedené v tomto článku k ručnímu downgradu ovladače a firmwaru Nvidia až do příští aktualizace softwaru Apex Cloud Platform.
POZNÁMKA: Pokud jste již použili verzi SBE 4.2.2509.n, ale neprovedli downgrade firmwaru Mellanox, proveďte níže uvedený postup pro downgrade firmwaru na stejnou úroveň jako ovladač.
- Pozastavte a vyprázdněte uzel.
- Pozastavit nástroj BitLocker v C: ->
Suspend-BitLocker -MountPoint "C:" -RebootCount 0 - Postupujte podle kroků v části "Implementace nápravy" a proveďte downgrade firmwaru vyvoláním příslušného balíčku DUP v závislosti na modelu síťové karty a restartujte systém.
- V řadiči iDRAC ověřte, zda downgrade firmwaru proběhl úspěšně.
- Ověřte správné připojení v síťových kartách Mellanox a obnovte nástroj BitLocker:
Resume-BitLocker -MountPoint "C:" - Odeberte uzel z režimu údržby. Před pozastavením jakéhokoli jiného uzlu počkejte na dokončení úloh úložiště.