Nvidia Mellanox ConnectX NIC-enhetsavbrudd og -tilbakestilling

Summary: AX og ACP For Azure-kunder som kjører lokal Azure-løsning, kan oppleve hyppige NIC-tilbakestillinger på tvers av flere noder etter installasjon av SBE 4.1.2506.n eller 4.1.2507.n med NIC-driver 25.1.26647 ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Oversikt

Lokale Azure-forekomster med maskiner som har NVIDIA ConnectX NIC (Network Interface Card), kan oppleve advarselsnivå NDIS-hendelses-ID 10400 og mlx5-hendelses-ID 386 etter installasjon av SBE-versjon 4.2.2506.n (AX) eller 4.2.2507.n (MC).

 

 

Følgende kommando kan brukes til å søke etter hendelsesloggen for disse hendelsene:

Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message

Disse hendelsene involverer tilbakestilling av ConnectX NIC, noe som kan føre til nettverksavbrudd, maskinutkastelse fra Azure Local-klyngen og sporadiske feilsjekkhendelser. Denne tilstanden er observert under visse workloader med mlx5.sys driverversjon 25.1.26647.0 og tilsvarende ConnectX-fastvare som er installert av SBE 4.2.2506.n (AX) eller 4.2.2507.n (MC).

 

Identifisere berørte lokale Azure-forekomster

Den problematiske oppførselen kan oppstå når alle følgende betingelser er oppfylt:

  • Maskinene er medlemmer av en Azure Local-forekomst
  • Maskinene har ett eller flere ConnectX NIC-kort installert
  • SBE 4.2.2506.n (AX) eller 4.2.2507.n (MC) er installert på den lokale Azure-forekomsten
  • ConnectX NIC-driverversjonen som kjører er 25.1.26647.0

 

Identifisere installert ConnectX-fastvareversjon

Følgende prosedyre kan utføres på hver maskin i en lokal forekomst av Azure.

  1. Koble til iDRAC-webgrensesnittet, velg Systemrullegardinlisten og Beholdning.
  2. Utvid fastvarebeholdningen og se etter komponenter med arbeidet ConnectX i beskrivelsen. Legg merke til den installerte fastvareversjonen.

 

 

Identifisere installert ConnectX-driverversjon

Følgende prosedyre kan utføres på hver maskin i en lokal forekomst av Azure.

  1. Kjør følgende kommando i vertsoperativsystemet for å identifisere hvilken ConnectX-driverversjon som kjører:
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

ConnectX-driver- og fastvareversjoner

Komponent

Berørt versjon

Utbedringsversjon

Last ned utbedringsversjon

ConnectX-driver

25.1.26647.0

24.4.26429.0

I/T (SBE-nyttelast)

ConnectX-6 LX FW

26.44.10.36

26.41.10.00

1H4PM

ConnectX-6 DX FW

22.44.10.36

22.41.10.00

2CMVW

ConnectX-5 EN/EX-fastvare

16.35.40.30

16.35.30.06

XY16R

ConnectX-4 LX

14.32.21.02

14.32.20.04

XGP2X

 

 

Cause

Denne tilstanden er observert på lokal løsning mlx5.sys Dell AX og MC Azure under visse arbeidsbelastninger med driverversjon 25.1.26647.0 og tilsvarende ConnectX-fastvare som er installert av SBE 4.2.2506.n (AX) eller 4.2.2507.n (MC). 

Resolution

Implementering av utbedring

Nedgradering av ConnectX NIC-fastvare før installasjon av SBE 4.2.2509.n (AX)

Utfør følgende prosedyre på hver maskin i den berørte lokale forekomsten av Azure.

  1. Koble til iDRAC-webgrensesnittet, velg rullegardinmenyen Vedlikehold og velg Systemoppdatering.
  2. Klikk på Velg fil-knappen og velg den kjørbare fastvarefilen som skal installeres for ConnectX NIC på maskinen din. Klikk på Åpne-knappen for å fullføre valget.
  3. Klikk på Last opp-knappen for å starte opplastingsprosessen.
  4. Når opplastingsprosessen er fullført, klikker du på plusstegnet ved siden av filen som ble lastet opp, for å se komponentene som gjelder for denne fastvarefilen. Den installerte fastvareversjonen og den tilgjengelige fastvareversjonen vises. Den tilgjengelige fastvareversjonen er versjonen som skal installeres.
     
  5. Klikk på avmerkingsboksen ved siden av fastvarefilen som skal installeres, og velg installer. Denne handlingen vil iscenesette oppgraderingen av ConnectX NIC-fastvaren; fastvareoppgraderingen fullføres når vertsoperativsystemet startes på nytt under et senere trinn.
  6. Formasjonsinstallasjonsjobben legges til i jobbkøen. Klikk Jobbkø-knappen for å vise jobben i jobbkøen.
  7. Jobbfremdriften vises.
  8. Vent til jobbstatusen viser 100 % fullført. Legg merke til statusen for angitt status for omstart av serveren.
  9. Klikk på livssyklusloggen, og noter igjen at fastvareoppdateringen trer i kraft etter at serveren er startet på nytt. Serveren vil bli startet på nytt automatisk som en del av SBE-installasjonen i et senere trinn.

 

Installere SBE 4.2.2509.n

Installer SBE 4.2.2509.n ved hjelp av standard SBE-installasjonsprosess. SBE 4.2.2509.n-installasjonen installerer installasjon av den trinnvise ConnectX-fastvaren, installerer SBE 4.2.2509.n-driveren og fastvarenyttelasten. mlx5-driverversjon 24.4.26429.0 installeres også som en del av installasjonen av SBE 4.2.2509.n.

 

Bekrefte vellykket utbedring

Kontroller ConnectX-driveren og fastvareversjonen etter at SBE 4.2.2509.n er installert.

Bekreft installert ConnectX-fastvareversjon

Følgende prosedyre kan utføres på hver maskin i en lokal forekomst av Azure.

  1. Koble til iDRAC-webgrensesnittet, velg Systemrullegardinlisten og Beholdning.
  2. Utvid fastvarebeholdningen og se etter komponenter med arbeidet ConnectX i beskrivelsen. Legg merke til den installerte fastvareversjonen.

Bekreft installert ConnectX-driverversjon

Følgende prosedyre kan utføres på hver maskin i en lokal forekomst av Azure.

  1. Kjør følgende kommando i vertsoperativsystemet for å identifisere hvilken ConnectX-driverversjon som kjører:
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

 

 

MERK: For MC-noder kan du bruke metodene i denne KB-en til å nedgradere Nvidia-driveren og -fastvaren manuelt til neste Apex Cloud Platform-programvareoppdatering. 

 

MERK: Hvis du allerede har brukt SBE 4.2.2509.n, men ikke nedgraderte Mellanox-fastvaren, kan du bruke trinnene nedenfor for å nedgradere fastvaren til samme nivå som driveren. 

 

  1.       Pause og tøm noden.
  2.       Suspend BitLocker in C:  -> 
    Suspend-BitLocker -MountPoint "C:" -RebootCount 0
  3.       Følg trinnene under delen "Implementere utbedring" for å nedgradere fastvaren ved å starte riktig DUP, avhengig av NIC-modellen, og start systemet på nytt.
  4.      Kontrollere i IDRAC at nedgraderingen av fastvaren er vellykket.
  5.      Bekreft riktig tilkobling i Mellanox Nics, og fortsett BitLocker:  
    Resume-BitLocker -MountPoint "C:"
  6.      Fjern noden fra vedlikeholdsmodus. Vent til lagringsjobber er fullført før andre noder settes på pause. 

 

Affected Products

APEX MC-660, APEX MC-760, ax-650, AX-6515, AX-660, AX-750, AX-7525, AX-760
Article Properties
Article Number: 000376360
Article Type: Solution
Last Modified: 10 Oct 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.