Nvidia Mellanox ConnectX NIC-enhetstimeout och återställning
Summary: AX och ACP För Azure-kunder som kör Azure Local Solution kan det hända frekventa NIC-återställningar över flera noder efter installation av SBE 4.1.2506.n eller 4.1.2507.n, med NIC-drivrutinen 25.1.26647 ...
Symptoms
Översikt
Lokala Azure-instanser med datorer som har NVIDIA ConnectX-nätverkskortet (nätverksgränssnittskort) kan uppleva varningsnivån NDIS händelse-ID 10400 och mlx5-händelse-ID 386 efter installation av SBE-version 4.2.2506.n (AX) eller 4.2.2507.n (MC).


Följande kommando kan användas för att söka efter händelseloggen för dessa händelser:
Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message
Dessa händelser omfattar återställning av ConnectX-nätverkskortet, vilket kan leda till nätverksavbrott, avlägsning av datorer från det lokala Azure-klustret och tillfälliga felkontrollhändelser. Det här har observerats under vissa arbetsbelastningar med mlx5.sys drivrutinsversion 25.1.26647.0 och motsvarande fast ConnectX-programvara som installeras av SBE 4.2.2506.n (AX) eller 4.2.2507.n (MC).
Identifiera berörda lokala Azure-instanser
Det problematiska beteendet kan inträffa när alla följande villkor är uppfyllda:
- Datorerna är medlemmar i en lokal Azure-instans
- Datorerna har ett eller flera ConnectX-nätverkskort installerade
- SBE 4.2.2506.n (AX) eller 4.2.2507.n (MC) är installerat på den lokala Azure-instansen
- Versionen av ConnectX NIC-drivrutinen som körs är 25.1.26647.0
Identifiera installerad version av fast ConnectX-programvara
Följande procedur kan utföras på varje dator i en lokal Azure-instans.
- Anslut till iDRAC-webbgränssnittet, välj listrutan System och Inventory.
- Expandera Firmware Inventory och leta efter komponenter med arbetet ConnectX i beskrivningen. Observera den installerade versionen av den fasta programvaran.

Identifiera den installerade ConnectX-drivrutinsversionen
Följande procedur kan utföras på varje dator i en lokal Azure-instans.
- Kör följande kommando i värdoperativsystemet för att identifiera den ConnectX-drivrutinsversion som körs:
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

ConnectX-drivrutiner och versioner av fast programvara
|
Komponent |
Berörd version |
Reparationsversion |
Nedladdning av reparationsversion |
|
ConnectX-drivrutin |
25.1.26647.0 |
24.4.26429.0 |
Ej tillämpligt (SBE-nyttolast) |
|
ConnectX-6 LX fast programvara |
26.44.10.36 |
26.41.10.00 |
|
|
ConnectX-6 DX fast programvara |
22.44.10.36 |
22.41.10.00 |
|
|
ConnectX-5 EN/EX fast programvara |
16.35.40.30 |
16.35.30.06 |
|
|
ConnectX-4 LX |
14.32.21.02 |
14.32.20.04 |
Cause
Det här har observerats på den lokala Dell AX- och MC Azure-lösningen under vissa arbetsbelastningar med mlx5.sys drivrutinsversion 25.1.26647.0 och motsvarande fast ConnectX-programvara som installerats av SBE 4.2.2506.n (AX) eller 4.2.2507.n (MC).
Resolution
Implementera åtgärder
Nedgradera fast programvara för ConnectX NIC före installation av SBE 4.2.2509.n (AX)
Utför följande procedur på varje dator i den berörda Azure Local instansen.
- Anslut till iDRAC-webbgränssnittet, välj listrutan Maintenance och välj System Update.
- Klicka på knappen Välj fil och välj den körbara filen för den fasta programvaran som ska installeras för ConnectX-nätverkskortet på din maskin. Klicka på knappen Öppna för att slutföra valet.

- Klicka på knappen Ladda upp för att starta uppladdningsprocessen.

- När uppladdningen är klar klickar du på plustecknet bredvid filen som laddades upp för att se de komponenter som den här filen med den fasta programvaran gäller. Den för närvarande installerade firmwareversionen och den tillgängliga firmwareversionen kommer att visas. Den tillgängliga versionen av den fasta programvaran är den version som kommer att installeras.
- Markera kryssrutan bredvid filen med den fasta programvaran som ska installeras och välj Installera. Den här åtgärden mellanlagrar uppgraderingen av den fasta programvaran för ConnectX NIC. Uppgraderingen av den fasta programvaran slutförs när värdoperativsystemet startas om i ett senare steg.

- Formationsinstallationsjobbet läggs till i jobbkön. Klicka på knappen Jobbkö för att visa jobbet i jobbkön.

- Jobbförloppet visas.

- Vänta tills jobbstatusen visar 100 % slutfört. Notera den angivna statusen Server Reboot Pending .

- Klicka på livscykelloggen och notera igen att uppdateringen av den fasta programvaran kommer att träda i kraft när servern har startats om. Servern startas om automatiskt som en del av SBE-installationen i ett senare steg.

Installera SBE 4.2.2509.n
Installera SBE 4.2.2509.n med hjälp av standardinstallationsprocessen för SBE. Installationen av SBE 4.2.2509.n installerar anropet av den mellanlagrade fasta programvaran för ConnectX, installerar SBE 4.2.2509.n-drivrutinen och nyttolasten för den fasta programvaran. mlx5-drivrutinsversion 24.4.26429.0 installeras också som en del av installationen av SBE 4.2.2509.n.
Verifiera lyckade åtgärder
Verifiera ConnectX-drivrutinens och den fasta programvarans version efter att SBE 4.2.2509.n har installerats.
Verifiera den installerade versionen av den fasta programvaran för ConnectX
Följande procedur kan utföras på varje dator i en lokal Azure-instans.
- Anslut till iDRAC-webbgränssnittet, välj listrutan System och Inventory.
- Expandera Firmware Inventory och leta efter komponenter med arbetet ConnectX i beskrivningen. Observera den installerade versionen av den fasta programvaran.

Verifiera installerad ConnectX-drivrutinsversion
Följande procedur kan utföras på varje dator i en lokal Azure-instans.
- Kör följande kommando i värdoperativsystemet för att identifiera den ConnectX-drivrutinsversion som körs:
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

Obs! För MC-noder använder du metoderna i denna KB för att manuellt nedgradera Nvidia-drivrutinen och den fasta programvaran till nästa programuppdatering för Apex Cloud Platform.
Obs! Om du redan har installerat SBE 4.2.2509.n, men inte nedgraderat den fasta programvaran för Mellanox, kan du använda stegen nedan för att nedgradera den fasta programvaran till samma nivå som drivrutinen.
- Pausa och töm noden.
- Avaktivera BitLocker i C: ->
Suspend-BitLocker -MountPoint "C:" -RebootCount 0 - Följ stegen i avsnittet "Implementing Remediation" för att nedgradera fast programvara genom att anropa lämpligt DUP beroende på NIC-modellen och starta om systemet.
- Kontrollera i IDRAC att nedgraderingen av den fasta programvaran har lyckats.
- Kontrollera korrekt anslutning i Mellanox-nätverkskorten och återuppta BitLocker:
Resume-BitLocker -MountPoint "C:" - Ta bort noden från underhållsläge. Vänta tills lagringsjobben har slutförts innan du pausar någon annan nod.