Nvidia Mellanox ConnectX NIC-enhetsavbrudd og -tilbakestilling
Summary: AX og ACP For Azure-kunder som kjører lokal Azure-løsning, kan oppleve hyppige NIC-tilbakestillinger på tvers av flere noder etter installasjon av SBE 4.1.2506.n eller 4.1.2507.n med NIC-driver 25.1.26647 ...
Symptoms
Oversikt
Lokale Azure-forekomster med maskiner som har NVIDIA ConnectX NIC (Network Interface Card), kan oppleve advarselsnivå NDIS-hendelses-ID 10400 og mlx5-hendelses-ID 386 etter installasjon av SBE-versjon 4.2.2506.n (AX) eller 4.2.2507.n (MC).


Følgende kommando kan brukes til å søke etter hendelsesloggen for disse hendelsene:
Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message
Disse hendelsene involverer tilbakestilling av ConnectX NIC, noe som kan føre til nettverksavbrudd, maskinutkastelse fra Azure Local-klyngen og sporadiske feilsjekkhendelser. Denne tilstanden er observert under visse workloader med mlx5.sys driverversjon 25.1.26647.0 og tilsvarende ConnectX-fastvare som er installert av SBE 4.2.2506.n (AX) eller 4.2.2507.n (MC).
Identifisere berørte lokale Azure-forekomster
Den problematiske oppførselen kan oppstå når alle følgende betingelser er oppfylt:
- Maskinene er medlemmer av en Azure Local-forekomst
- Maskinene har ett eller flere ConnectX NIC-kort installert
- SBE 4.2.2506.n (AX) eller 4.2.2507.n (MC) er installert på den lokale Azure-forekomsten
- ConnectX NIC-driverversjonen som kjører er 25.1.26647.0
Identifisere installert ConnectX-fastvareversjon
Følgende prosedyre kan utføres på hver maskin i en lokal forekomst av Azure.
- Koble til iDRAC-webgrensesnittet, velg Systemrullegardinlisten og Beholdning.
- Utvid fastvarebeholdningen og se etter komponenter med arbeidet ConnectX i beskrivelsen. Legg merke til den installerte fastvareversjonen.

Identifisere installert ConnectX-driverversjon
Følgende prosedyre kan utføres på hver maskin i en lokal forekomst av Azure.
- Kjør følgende kommando i vertsoperativsystemet for å identifisere hvilken ConnectX-driverversjon som kjører:
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

ConnectX-driver- og fastvareversjoner
|
Komponent |
Berørt versjon |
Utbedringsversjon |
Last ned utbedringsversjon |
|
ConnectX-driver |
25.1.26647.0 |
24.4.26429.0 |
I/T (SBE-nyttelast) |
|
ConnectX-6 LX FW |
26.44.10.36 |
26.41.10.00 |
|
|
ConnectX-6 DX FW |
22.44.10.36 |
22.41.10.00 |
|
|
ConnectX-5 EN/EX-fastvare |
16.35.40.30 |
16.35.30.06 |
|
|
ConnectX-4 LX |
14.32.21.02 |
14.32.20.04 |
Cause
Denne tilstanden er observert på lokal løsning mlx5.sys Dell AX og MC Azure under visse arbeidsbelastninger med driverversjon 25.1.26647.0 og tilsvarende ConnectX-fastvare som er installert av SBE 4.2.2506.n (AX) eller 4.2.2507.n (MC).
Resolution
Implementering av utbedring
Nedgradering av ConnectX NIC-fastvare før installasjon av SBE 4.2.2509.n (AX)
Utfør følgende prosedyre på hver maskin i den berørte lokale forekomsten av Azure.
- Koble til iDRAC-webgrensesnittet, velg rullegardinmenyen Vedlikehold og velg Systemoppdatering.
- Klikk på Velg fil-knappen og velg den kjørbare fastvarefilen som skal installeres for ConnectX NIC på maskinen din. Klikk på Åpne-knappen for å fullføre valget.

- Klikk på Last opp-knappen for å starte opplastingsprosessen.

- Når opplastingsprosessen er fullført, klikker du på plusstegnet ved siden av filen som ble lastet opp, for å se komponentene som gjelder for denne fastvarefilen. Den installerte fastvareversjonen og den tilgjengelige fastvareversjonen vises. Den tilgjengelige fastvareversjonen er versjonen som skal installeres.
- Klikk på avmerkingsboksen ved siden av fastvarefilen som skal installeres, og velg installer. Denne handlingen vil iscenesette oppgraderingen av ConnectX NIC-fastvaren; fastvareoppgraderingen fullføres når vertsoperativsystemet startes på nytt under et senere trinn.

- Formasjonsinstallasjonsjobben legges til i jobbkøen. Klikk Jobbkø-knappen for å vise jobben i jobbkøen.

- Jobbfremdriften vises.

- Vent til jobbstatusen viser 100 % fullført. Legg merke til statusen for angitt status for omstart av serveren.

- Klikk på livssyklusloggen, og noter igjen at fastvareoppdateringen trer i kraft etter at serveren er startet på nytt. Serveren vil bli startet på nytt automatisk som en del av SBE-installasjonen i et senere trinn.

Installere SBE 4.2.2509.n
Installer SBE 4.2.2509.n ved hjelp av standard SBE-installasjonsprosess. SBE 4.2.2509.n-installasjonen installerer installasjon av den trinnvise ConnectX-fastvaren, installerer SBE 4.2.2509.n-driveren og fastvarenyttelasten. mlx5-driverversjon 24.4.26429.0 installeres også som en del av installasjonen av SBE 4.2.2509.n.
Bekrefte vellykket utbedring
Kontroller ConnectX-driveren og fastvareversjonen etter at SBE 4.2.2509.n er installert.
Bekreft installert ConnectX-fastvareversjon
Følgende prosedyre kan utføres på hver maskin i en lokal forekomst av Azure.
- Koble til iDRAC-webgrensesnittet, velg Systemrullegardinlisten og Beholdning.
- Utvid fastvarebeholdningen og se etter komponenter med arbeidet ConnectX i beskrivelsen. Legg merke til den installerte fastvareversjonen.

Bekreft installert ConnectX-driverversjon
Følgende prosedyre kan utføres på hver maskin i en lokal forekomst av Azure.
- Kjør følgende kommando i vertsoperativsystemet for å identifisere hvilken ConnectX-driverversjon som kjører:
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

MERK: For MC-noder kan du bruke metodene i denne KB-en til å nedgradere Nvidia-driveren og -fastvaren manuelt til neste Apex Cloud Platform-programvareoppdatering.
MERK: Hvis du allerede har brukt SBE 4.2.2509.n, men ikke nedgraderte Mellanox-fastvaren, kan du bruke trinnene nedenfor for å nedgradere fastvaren til samme nivå som driveren.
- Pause og tøm noden.
- Suspend BitLocker in C: ->
Suspend-BitLocker -MountPoint "C:" -RebootCount 0 - Følg trinnene under delen "Implementere utbedring" for å nedgradere fastvaren ved å starte riktig DUP, avhengig av NIC-modellen, og start systemet på nytt.
- Kontrollere i IDRAC at nedgraderingen av fastvaren er vellykket.
- Bekreft riktig tilkobling i Mellanox Nics, og fortsett BitLocker:
Resume-BitLocker -MountPoint "C:" - Fjern noden fra vedlikeholdsmodus. Vent til lagringsjobber er fullført før andre noder settes på pause.