Nvidia Mellanox ConnectX NIC-enhedstimeout og -nulstilling

Summary: AX og ACP For Azure-kunder, der kører en lokal Azure-løsning, kan de opleve hyppige NIC-nulstillinger på tværs af flere noder efter installation af SBE 4.1.2506.n eller 4.1.2507.n med NIC-driver 25.1.26647 ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Oversigt

Lokale Azure-instanser med maskiner, der har NVIDIA ConnectX NIC (netværksinterfacekort), kan opleve advarselsniveau for NDIS Event ID 10400 og MLX5 Event ID 386 efter installation af SBE version 4.2.2506.n (AX) eller 4.2.2507.n (MC).

 

 

Følgende kommando kan bruges til at søge efter hændelsesloggen for disse hændelser:

Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message

Disse hændelser omfatter ConnectX NIC-nulstillinger, som kan resultere i netværksafbrydelser, fjernelse af maskiner fra Azure Local Cluster og lejlighedsvise fejlkontrolhændelser. Denne tilstand er observeret under visse arbejdsbelastninger med driverversion 25.1.26647.0 og mlx5.sys tilsvarende ConnectX-firmware, der installeres af SBE 4.2.2506.n (AX) eller 4.2.2507.n (MC).

 

Identificering af berørte lokale Azure-instanser

Den problematiske funktionsmåde kan opstå, når alle følgende betingelser er opfyldt:

  • Maskinerne er medlemmer af en lokal Azure-instans
  • Maskinerne har et eller flere ConnectX-netværkskort installeret
  • SBE 4.2.2506.n (AX) eller 4.2.2507.n (MC) er installeret på den lokale Azure-instans
  • Den kørende ConnectX NIC-driverversion er 25.1.26647.0

 

Identifikation af installeret ConnectX-firmwareversion

Følgende procedure kan udføres på hver maskine i en lokal Azure-instans.

  1. Opret forbindelse til iDRAC-webgrænsefladen, vælg rullelisten System og Lager.
  2. Udvid Firmware Inventory og se efter komponenter med arbejdet ConnectX i beskrivelsen. Bemærk den installerede firmwareversion.

 

 

Identificerer installeret ConnectX-driverversion

Følgende procedure kan udføres på hver maskine i en lokal Azure-instans.

  1. Kør følgende kommando i værtsoperativsystemet for at identificere den kørende ConnectX-driverversion:
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

ConnectX-driver- og firmwareversioner

Komponent

Berørt version

Afhjælpningsversion

Download af afhjælpningsversion

ConnectX-driver

25.1.26647.0

24.4.26429.0

N/A (SBE-data)

ConnectX-6 LX-FW

26.44.10.36

26.41.10.00

Kl. 13.3

ConnectX-6 DX FW

22.44.10.36

22.41.10.00

2CMVW

ConnectX-5 EN/EX FW

16.35.40.30

16.35.30.06

XY16R

ConnectX-4 LX

14.32.21.02

14.32.20.04

XGP2X

 

 

Cause

Denne tilstand er blevet observeret på Dell AX- og MC Azure Local-løsningen under visse workloads med driverversion 25.1.26647.0 og tilsvarende ConnectX mlx5.sys firmware, der installeres af SBE 4.2.2506.n (AX) eller 4.2.2507.n (MC). 

Resolution

Implementering af afhjælpning

Nedgradering af ConnectX NIC-firmware Før installation af SBE 4.2.2509.n (AX)

Udfør følgende procedure på hver maskine i den berørte lokale Azure-instans.

  1. Opret forbindelse til iDRAC-webgrænsefladen, vælg rullemenuen Vedligeholdelse, og vælg Systemopdatering.
  2. Klik på knappen Vælg fil, og vælg den eksekverbare firmwarefil, der skal installeres til ConnectX-netværkskortet i din maskine. Klik på knappen Åbn for at fuldføre valget.
  3. Klik på knappen Upload for at starte uploadprocessen.
  4. Når uploadprocessen er fuldført, skal du klikke på plustegnet ud for den fil, der blev uploadet, for at se de komponenter, som denne firmwarefil gælder for. Den aktuelt installerede firmwareversion og den tilgængelige firmwareversion vises. Den tilgængelige firmwareversion er den version, der vil blive installeret.
     
  5. Klik på afkrydsningsfeltet ud for den firmwarefil, der skal installeres, og vælg installer. Denne handling faser opgraderingen af ConnectX NIC-firmwaren. Firmwareopgraderingen fuldføres, når værtsoperativsystemet genstartes under et senere trin.
  6. Formationsinstallationsjobbet føjes til jobkøen. Klik på knappen Jobkø for at få vist jobbet i opgavekøen.
  7. Jobstatus vises.
  8. Vent, indtil jobstatus viser 100 % fuldført. Bemærk den angivne status Server Reboot Pending status.
  9. Klik på Lifecycle-loggen, og bemærk igen, at firmwareopdateringen træder i kraft efter genstart af serveren. Serveren genstartes automatisk som en del af SBE-installationen i et senere trin.

 

Installation af SBE 4.2.2509.n

Installer SBE 4.2.2509.n ved hjælp af SBE-standardinstallationsprocessen. SBE 4.2.2509.n-installationen installerer den påkaldte installation af den trininddelte ConnectX-firmware, installerer SBE 4.2.2509.n-driveren og firmwarenyttelasten. MLX5-driverversion 24.4.26429.0 vil også blive installeret som en del af installationen af SBE 4.2.2509.n.

 

Bekræftelse af vellykket afhjælpning

Kontroller ConnectX-driveren og firmwareversionen, når SBE 4.2.2509.n er installeret.

Kontrollér, at ConnectX-firmwareversionen er installeret

Følgende procedure kan udføres på hver maskine i en lokal Azure-instans.

  1. Opret forbindelse til iDRAC-webgrænsefladen, vælg rullelisten System og Lager.
  2. Udvid Firmware Inventory og se efter komponenter med arbejdet ConnectX i beskrivelsen. Bemærk den installerede firmwareversion.

Kontroller, at ConnectX-driverversionen er installeret

Følgende procedure kan udføres på hver maskine i en lokal Azure-instans.

  1. Kør følgende kommando i værtsoperativsystemet for at identificere den kørende ConnectX-driverversion:
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

 

 

BEMÆRK: For MC-noder skal du bruge metoderne i denne KB til manuelt at nedgradere Nvidia-driveren og -firmwaren indtil næste Apex Cloud Platform-softwareopdatering. 

 

BEMÆRK: Hvis du allerede har anvendt SBE 4.2.2509.n, men ikke har nedgraderet Mellanox-firmwaren, skal du følge nedenstående trin for at nedgradere firmwaren til samme niveau som driveren. 

 

  1.       Sæt noden på pause, og dræn den.
  2.       Afbryd BitLocker i C:  -> 
    Suspend-BitLocker -MountPoint "C:" -RebootCount 0
  3.       Følg trinnene i afsnittet "Implementering af afhjælpning" for at udføre firmwarenedgradering ved at aktivere den relevante DUP afhængigt af NIC-modellen og genstarte systemet.
  4.      Kontrollér i IDRAC, at FW-nedgraderingen er lykkedes.
  5.      Kontrollér, at forbindelsen er korrekt i Mellanox-netværkskortet, og genoptag BitLocker:  
    Resume-BitLocker -MountPoint "C:"
  6.      Fjern noden fra vedligeholdelsestilstand. Vent på, at storagejob fuldføres, før du sætter en anden node på pause. 

 

Affected Products

APEX MC-660, APEX MC-760, ax-650, AX-6515, AX-660, AX-750, AX-7525, AX-760
Article Properties
Article Number: 000376360
Article Type: Solution
Last Modified: 10 Oct 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.