Time-out en reset van Nvidia Mellanox ConnectX NIC-apparaat
Summary: AX en ACP For Azure-klanten met een Azure Local oplossing kunnen te maken krijgen met frequente NIC-resets op meerdere knooppunten na installatie van SBE 4.1.2506.n of 4.1.2507.n, met NIC-driver 25.1.26647 ...
Symptoms
Overzicht
Lokale Azure-instanties met machines die beschikken over de NVIDIA ConnectX NIC (netwerkinterfacekaart) kunnen te maken krijgen met waarschuwingsniveau NDIS Event ID 10400 en mlx5 Event ID 386 na installatie van SBE versie 4.2.2506.n (AX) of 4.2.2507.n (MC).


De volgende opdracht kan worden gebruikt om te zoeken naar het gebeurtenislogboek voor deze gebeurtenissen:
Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message
Deze gebeurtenissen omvatten de ConnectX NIC-resets, wat kan leiden tot netwerkonderbreking, verwijdering van de machine uit het Azure Local-cluster en incidentele bugcheck-gebeurtenissen. Deze toestand is waargenomen bij bepaalde workloads met mlx5.sys driverversie 25.1.26647.0 en bijbehorende ConnectX-firmware die is geïnstalleerd door SBE 4.2.2506.n (AX) of 4.2.2507.n (MC).
Getroffen lokale Azure-instanties identificeren
Het problematische gedrag kan optreden wanneer aan alle volgende voorwaarden is voldaan:
- De machines zijn lid van een lokale Azure-instantie
- Op de machines zijn een of meer ConnectX NIC's geïnstalleerd
- SBE 4.2.2506.n (AX) of 4.2.2507.n (MC) is geïnstalleerd op de Azure Local-instantie
- De actieve ConnectX NIC-driverversie is 25.1.26647.0
Geïnstalleerde ConnectX-firmwareversie identificeren
De volgende procedure kan worden uitgevoerd op elke machine in een lokale Azure-instantie.
- Maak verbinding met de iDRAC-webinterface, selecteer System drop down en Inventory.
- Vouw Firmware-inventaris uit en zoek naar componenten met het werk ConnectX in de beschrijving. Noteer de geïnstalleerde firmwareversie.

De geïnstalleerde versie van de ConnectX-driver identificeren
De volgende procedure kan worden uitgevoerd op elke machine in een lokale Azure-instantie.
- Voer de volgende opdracht uit in het hostbesturingssysteem om de actieve ConnectX-driverversie te identificeren:
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

ConnectX driver- en firmwareversies
|
Component |
Versie waarin dit probleem optreedt |
Herstelversie |
Herstelversie downloaden |
|
ConnectX-driver |
25.1.26647.0 |
24.4.26429.0 |
N.v.t. (SBE Payload) |
|
ConnectX-6 LX FW |
26.44.10.36 |
26.41.10.00 |
|
|
ConnectX-6 DX FW |
22.44.10.36 |
22.41.10.00 |
|
|
ConnectX-5 EN/EX FW |
16.35.40.30 |
16.35.30.06 |
|
|
ConnectX-4 LX |
14.32.21.02 |
14.32.20.04 |
Cause
Deze situatie is waargenomen op Dell AX en MC Azure Local oplossing onder bepaalde workloads met mlx5.sys driverversie 25.1.26647.0 en bijbehorende ConnectX-firmware die is geïnstalleerd door SBE 4.2.2506.n (AX) of 4.2.2507.n (MC).
Resolution
Implementatie van herstel
ConnectX NIC firmware downgraden Voordat u SBE 4.2.2509.n (AX) installeert
Voer de volgende procedure uit op elke computer in de betreffende Azure Local Instance.
- Maak verbinding met de iDRAC-webinterface, selecteer de vervolgkeuzelijst Onderhoud en selecteer Systeemupdate.
- Klik op de knop Bestand kiezen en selecteer het uitvoerbare firmwarebestand dat moet worden geïnstalleerd voor de ConnectX NIC op uw computer. Klik op de knop Openen om de selectie te voltooien.

- Klik op de knop Uploaden om het uploadproces te starten.

- Zodra het uploadproces is voltooid, klikt u op het plusteken naast het bestand dat is geüpload om de componenten te zien waarop dit firmwarebestand van toepassing is. De momenteel geïnstalleerde firmwareversie en de beschikbare firmwareversie worden weergegeven. De beschikbare firmwareversie is de versie die wordt geïnstalleerd.
- Klik op het selectievakje naast het firmwarebestand dat u wilt installeren en selecteer installeren. Met deze actie wordt de ConnectX NIC-firmware-upgrade uitgevoerd. De firmware-upgrade wordt voltooid wanneer het hostbesturingssysteem opnieuw wordt opgestart in een latere stap.

- De installatietaak voor de formatie wordt toegevoegd aan de taakwachtrij. Klik op de knop Taakwachtrij om de taak in de taakwachtrij weer te geven.

- De voortgang van de taak wordt weergegeven.

- Wacht tot de taakstatus 100% voltooid is. Let op de aangegeven status van Server Reboot In behandeling.

- Klik op het levenscycluslogboek en merk nogmaals op dat de firmware-update van kracht wordt nadat de server opnieuw is opgestart. De server wordt in een latere stap automatisch opnieuw opgestart als onderdeel van de SBE-installatie.

SBE 4.2.2509.n installeren
Installeer SBE 4.2.2509.n volgens het standaard SBE-installatieproces. Bij de installatie van SBE 4.2.2509.n wordt de installatie van de gefaseerde ConnectX-firmware geïnstalleerd, de SBE 4.2.2509.n-driver en de firmware-payload geïnstalleerd. mlx5 driverversie 24.4.26429.0 wordt ook geïnstalleerd als onderdeel van de installatie van SBE 4.2.2509.n.
Een succesvolle oplossing verifiëren
Controleer de ConnectX driver en firmwareversie nadat SBE 4.2.2509.n is geïnstalleerd.
Controleer de geïnstalleerde ConnectX-firmwareversie
De volgende procedure kan worden uitgevoerd op elke machine in een lokale Azure-instantie.
- Maak verbinding met de iDRAC-webinterface, selecteer System drop down en Inventory.
- Vouw Firmware-inventaris uit en zoek naar componenten met het werk ConnectX in de beschrijving. Noteer de geïnstalleerde firmwareversie.

Controleer de geïnstalleerde ConnectX-driverversie
De volgende procedure kan worden uitgevoerd op elke machine in een lokale Azure-instantie.
- Voer de volgende opdracht uit in het hostbesturingssysteem om de actieve ConnectX-driverversie te identificeren:
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

OPMERKING: Gebruik voor MC-knooppunten de methoden in deze KB om de NVIDIA-driver en firmware handmatig te downgraden tot de volgende software-update voor het Apex Cloud Platform.
OPMERKING: Als u SBE 4.2.2509.n al hebt toegepast, maar de Mellanox-firmware niet hebt gedowngraded, volgt u de onderstaande stappen om de firmware te downgraden naar hetzelfde niveau als de driver.
- Pauzeer en laat het knooppunt leeglopen.
- BitLocker onderbreken in C: ->
Suspend-BitLocker -MountPoint "C:" -RebootCount 0 - Volg de stappen onder het gedeelte "Implementing Remediation" om de firmware te downgraden door het juiste DUP aan te roepen, afhankelijk van het NIC-model, en start het systeem opnieuw op.
- Controleer in IDRAC of de FW-downgrade is geslaagd.
- Controleer de juiste connectiviteit in de Mellanox nics en hervat BitLocker:
Resume-BitLocker -MountPoint "C:" - Verwijder knooppunt uit onderhoudsmodus. Wacht tot de storagetaken zijn voltooid voordat u een ander knooppunt onderbreekt.