Nvidia Mellanox ConnectX NIC-enhetstimeout och återställning

Summary: AX och ACP För Azure-kunder som kör Azure Local Solution kan det hända frekventa NIC-återställningar över flera noder efter installation av SBE 4.1.2506.n eller 4.1.2507.n, med NIC-drivrutinen 25.1.26647 ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Översikt

Lokala Azure-instanser med datorer som har NVIDIA ConnectX-nätverkskortet (nätverksgränssnittskort) kan uppleva varningsnivån NDIS händelse-ID 10400 och mlx5-händelse-ID 386 efter installation av SBE-version 4.2.2506.n (AX) eller 4.2.2507.n (MC).

 

 

Följande kommando kan användas för att söka efter händelseloggen för dessa händelser:

Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message

Dessa händelser omfattar återställning av ConnectX-nätverkskortet, vilket kan leda till nätverksavbrott, avlägsning av datorer från det lokala Azure-klustret och tillfälliga felkontrollhändelser. Det här har observerats under vissa arbetsbelastningar med mlx5.sys drivrutinsversion 25.1.26647.0 och motsvarande fast ConnectX-programvara som installeras av SBE 4.2.2506.n (AX) eller 4.2.2507.n (MC).

 

Identifiera berörda lokala Azure-instanser

Det problematiska beteendet kan inträffa när alla följande villkor är uppfyllda:

  • Datorerna är medlemmar i en lokal Azure-instans
  • Datorerna har ett eller flera ConnectX-nätverkskort installerade
  • SBE 4.2.2506.n (AX) eller 4.2.2507.n (MC) är installerat på den lokala Azure-instansen
  • Versionen av ConnectX NIC-drivrutinen som körs är 25.1.26647.0

 

Identifiera installerad version av fast ConnectX-programvara

Följande procedur kan utföras på varje dator i en lokal Azure-instans.

  1. Anslut till iDRAC-webbgränssnittet, välj listrutan System och Inventory.
  2. Expandera Firmware Inventory och leta efter komponenter med arbetet ConnectX i beskrivningen. Observera den installerade versionen av den fasta programvaran.

 

 

Identifiera den installerade ConnectX-drivrutinsversionen

Följande procedur kan utföras på varje dator i en lokal Azure-instans.

  1. Kör följande kommando i värdoperativsystemet för att identifiera den ConnectX-drivrutinsversion som körs:
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

ConnectX-drivrutiner och versioner av fast programvara

Komponent

Berörd version

Reparationsversion

Nedladdning av reparationsversion

ConnectX-drivrutin

25.1.26647.0

24.4.26429.0

Ej tillämpligt (SBE-nyttolast)

ConnectX-6 LX fast programvara

26.44.10.36

26.41.10.00

1H4

ConnectX-6 DX fast programvara

22.44.10.36

22.41.10.00

2CMVW

ConnectX-5 EN/EX fast programvara

16.35.40.30

16.35.30.06

XY16R

ConnectX-4 LX

14.32.21.02

14.32.20.04

XGP2X

 

 

Cause

Det här har observerats på den lokala Dell AX- och MC Azure-lösningen under vissa arbetsbelastningar med mlx5.sys drivrutinsversion 25.1.26647.0 och motsvarande fast ConnectX-programvara som installerats av SBE 4.2.2506.n (AX) eller 4.2.2507.n (MC). 

Resolution

Implementera åtgärder

Nedgradera fast programvara för ConnectX NIC före installation av SBE 4.2.2509.n (AX)

Utför följande procedur på varje dator i den berörda Azure Local instansen.

  1. Anslut till iDRAC-webbgränssnittet, välj listrutan Maintenance och välj System Update.
  2. Klicka på knappen Välj fil och välj den körbara filen för den fasta programvaran som ska installeras för ConnectX-nätverkskortet på din maskin. Klicka på knappen Öppna för att slutföra valet.
  3. Klicka på knappen Ladda upp för att starta uppladdningsprocessen.
  4. När uppladdningen är klar klickar du på plustecknet bredvid filen som laddades upp för att se de komponenter som den här filen med den fasta programvaran gäller. Den för närvarande installerade firmwareversionen och den tillgängliga firmwareversionen kommer att visas. Den tillgängliga versionen av den fasta programvaran är den version som kommer att installeras.
     
  5. Markera kryssrutan bredvid filen med den fasta programvaran som ska installeras och välj Installera. Den här åtgärden mellanlagrar uppgraderingen av den fasta programvaran för ConnectX NIC. Uppgraderingen av den fasta programvaran slutförs när värdoperativsystemet startas om i ett senare steg.
  6. Formationsinstallationsjobbet läggs till i jobbkön. Klicka på knappen Jobbkö för att visa jobbet i jobbkön.
  7. Jobbförloppet visas.
  8. Vänta tills jobbstatusen visar 100 % slutfört. Notera den angivna statusen Server Reboot Pending .
  9. Klicka på livscykelloggen och notera igen att uppdateringen av den fasta programvaran kommer att träda i kraft när servern har startats om. Servern startas om automatiskt som en del av SBE-installationen i ett senare steg.

 

Installera SBE 4.2.2509.n

Installera SBE 4.2.2509.n med hjälp av standardinstallationsprocessen för SBE. Installationen av SBE 4.2.2509.n installerar anropet av den mellanlagrade fasta programvaran för ConnectX, installerar SBE 4.2.2509.n-drivrutinen och nyttolasten för den fasta programvaran. mlx5-drivrutinsversion 24.4.26429.0 installeras också som en del av installationen av SBE 4.2.2509.n.

 

Verifiera lyckade åtgärder

Verifiera ConnectX-drivrutinens och den fasta programvarans version efter att SBE 4.2.2509.n har installerats.

Verifiera den installerade versionen av den fasta programvaran för ConnectX

Följande procedur kan utföras på varje dator i en lokal Azure-instans.

  1. Anslut till iDRAC-webbgränssnittet, välj listrutan System och Inventory.
  2. Expandera Firmware Inventory och leta efter komponenter med arbetet ConnectX i beskrivningen. Observera den installerade versionen av den fasta programvaran.

Verifiera installerad ConnectX-drivrutinsversion

Följande procedur kan utföras på varje dator i en lokal Azure-instans.

  1. Kör följande kommando i värdoperativsystemet för att identifiera den ConnectX-drivrutinsversion som körs:
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

 

 

Obs! För MC-noder använder du metoderna i denna KB för att manuellt nedgradera Nvidia-drivrutinen och den fasta programvaran till nästa programuppdatering för Apex Cloud Platform. 

 

Obs! Om du redan har installerat SBE 4.2.2509.n, men inte nedgraderat den fasta programvaran för Mellanox, kan du använda stegen nedan för att nedgradera den fasta programvaran till samma nivå som drivrutinen. 

 

  1.       Pausa och töm noden.
  2.       Avaktivera BitLocker i C:  -> 
    Suspend-BitLocker -MountPoint "C:" -RebootCount 0
  3.       Följ stegen i avsnittet "Implementing Remediation" för att nedgradera fast programvara genom att anropa lämpligt DUP beroende på NIC-modellen och starta om systemet.
  4.      Kontrollera i IDRAC att nedgraderingen av den fasta programvaran har lyckats.
  5.      Kontrollera korrekt anslutning i Mellanox-nätverkskorten och återuppta BitLocker:  
    Resume-BitLocker -MountPoint "C:"
  6.      Ta bort noden från underhållsläge. Vänta tills lagringsjobben har slutförts innan du pausar någon annan nod. 

 

Affected Products

APEX MC-660, APEX MC-760, ax-650, AX-6515, AX-660, AX-750, AX-7525, AX-760
Article Properties
Article Number: 000376360
Article Type: Solution
Last Modified: 10 Oct 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.