Nvidia Mellanox ConnectX NIC Zeitüberschreitung und Zurücksetzen des Geräts
Summary: AX und ACP Bei Azure-Kunden, die die lokale Azure-Lösung ausführen, kann es nach der Installation von SBE 4.1.2506.n oder 4.1.2507.n mit NIC-Treiber 25.1.26647 zu häufigen NIC-Zurücksetzungen über mehrere Nodes hinweg kommen ...
Symptoms
Übersicht
Bei lokalen Azure-Instanzen mit Computern, die über die NVIDIA ConnectX-NIC (Netzwerkschnittstellenkarte) verfügen, kann nach der Installation der SBE-Version 4.2.2506.n (AX) oder 4.2.2507.n (MC) die Warnstufe NDIS-Ereignis-ID 10400 und mlx5-Ereignis-ID 386 auftreten.


Der folgende Befehl kann verwendet werden, um nach dem Ereignisprotokoll für diese Ereignisse zu suchen:
Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message
Diese Ereignisse umfassen das Zurücksetzen der ConnectX-NIC, was zu Netzwerkunterbrechungen, Computerentfernung aus dem lokalen Azure-Cluster und gelegentlichen Fehlerüberprüfungsereignissen führen kann. Diese Bedingung wurde bei bestimmten Workloads mit mlx5.sys Treiberversion 25.1.26647.0 und der entsprechenden ConnectX-Firmware beobachtet, die von SBE 4.2.2506.n (AX) oder 4.2.2507.n (MC) installiert wird.
Identifizieren betroffener lokaler Azure-Instanzen
Das problematische Verhalten kann auftreten, wenn alle folgenden Bedingungen erfüllt sind:
- Die Computer sind Mitglieder einer lokalen Azure-Instanz
- Auf den Computern sind eine oder mehrere ConnectX-NICs installiert
- SBE 4.2.2506.n (AX) oder 4.2.2507.n (MC) ist auf der lokalen Azure-Instanz installiert
- Die ausgeführte Version des ConnectX-NIC-Treibers ist 25.1.26647.0
Identifizieren der installierten ConnectX-Firmwareversion
Das folgende Verfahren kann auf jedem Computer in einer lokalen Azure-Instanz durchgeführt werden.
- Stellen Sie eine Verbindung zur iDRAC-Webschnittstelle her, wählen Sie die Dropdown-Liste System und Bestandsaufnahme aus.
- Erweitern Sie den Firmwarebestand und suchen Sie nach Komponenten mit der Arbeitsbezeichnung ConnectX in der Beschreibung. Notieren Sie sich die installierte Firmwareversion.

Identifizieren der installierten ConnectX-Treiberversion
Das folgende Verfahren kann auf jedem Computer in einer lokalen Azure-Instanz durchgeführt werden.
- Führen Sie den folgenden Befehl im Host-Betriebssystem aus, um die ausgeführte ConnectX-Treiberversion zu ermitteln:
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

ConnectX-Treiber- und Firmwareversionen
|
Komponente |
Betroffene Version |
Korrekturversion |
Herunterladen der Korrekturversion |
|
ConnectX-Treiber |
25.1.26647.0 |
24.4.26429.0 |
N/A (SBE Payload) |
|
ConnectX-6 LX FW |
26.44.10.36 |
26.41.10.00 |
|
|
ConnectX-6 DX-FW |
22.44.10.36 |
22.41.10.00 |
|
|
ConnectX-5 EN/EX FW |
16.35.40.30 |
16.35.30.06 |
|
|
ConnectX-4 LX |
14.32.21.02 |
14.32.20.04 |
Cause
Diese Bedingung wurde auf Dell AX und MC Azure Local Solution unter bestimmten Workloads mit mlx5.sys Treiberversion 25.1.26647.0 und der entsprechenden ConnectX-Firmware beobachtet, die von SBE 4.2.2506.n (AX) oder 4.2.2507.n (MC) installiert wird.
Resolution
Implementieren von Korrekturmaßnahmen
Downgrade der ConnectX-NIC-Firmware Vor der Installation von SBE 4.2.2509.n (AX)
Führen Sie das folgende Verfahren auf jedem Computer in der betroffenen lokalen Azure-Instanz aus.
- Stellen Sie eine Verbindung zur iDRAC-Webschnittstelle her, wählen Sie das Dropdown-Menü Wartung und dann Systemaktualisierung aus.
- Klicken Sie auf die Schaltfläche Datei auswählen und wählen Sie die ausführbare Firmwaredatei aus, die für die ConnectX-NIC auf Ihrem Computer installiert werden soll. Klicken Sie auf die Schaltfläche Öffnen, um die Auswahl abzuschließen.

- Klicken Sie auf die Schaltfläche Hochladen, um den Uploadvorgang zu starten.

- Klicken Sie nach Abschluss des Upload-Vorgangs auf das Pluszeichen neben der hochgeladenen Datei, um die Komponenten anzuzeigen, für die diese Firmware-Datei gilt. Die aktuell installierte Firmware-Version und die verfügbare Firmware-Version werden angezeigt. Die verfügbare Firmwareversion ist die Version, die installiert wird.
- Aktivieren Sie das Kontrollkästchen neben der zu installierenden Firmware-Datei und wählen Sie "Installieren" aus. Mit dieser Aktion wird das ConnectX NIC-Firmwareupgrade bereitgestellt. Das Firmwareupgrade wird abgeschlossen, wenn das Hostbetriebssystem in einem späteren Schritt neu gestartet wird.

- Der Formationsinstallationsjob wird der Jobwarteschlange hinzugefügt. Klicken Sie auf die Schaltfläche Jobwarteschlange, um den Job in der Jobwarteschlange anzuzeigen.

- Der Jobfortschritt wird angezeigt.

- Warten Sie, bis der Jobstatus 100 % abgeschlossen anzeigt. Notieren Sie sich den angezeigten Status Server Reboot Pending.

- Klicken Sie auf das Lifecycle-Protokoll und beachten Sie erneut, dass das Firmwareupdate nach dem Neustart des Servers wirksam wird. Der Server wird im Rahmen der SBE-Installation in einem späteren Schritt automatisch neu gestartet.

Installieren von SBE 4.2.2509.n
Installieren Sie SBE 4.2.2509.n mithilfe des Standard-SBE-Installationsprozesses. Bei der Installation von SBE 4.2.2509.n wird die Installation der bereitgestellten ConnectX-Firmware sowie der Treiber und die Firmware-Payload für SBE 4.2.2509.n installiert. Die mlx5-Treiberversion 24.4.26429.0 wird auch im Rahmen der Installation von SBE 4.2.2509.n installiert.
Überprüfen der erfolgreichen Korrektur
Überprüfen Sie die ConnectX-Treiber- und Firmwareversion, nachdem SBE 4.2.2509.n erfolgreich installiert wurde.
Überprüfen der installierten ConnectX-Firmwareversion
Das folgende Verfahren kann auf jedem Computer in einer lokalen Azure-Instanz durchgeführt werden.
- Stellen Sie eine Verbindung zur iDRAC-Webschnittstelle her, wählen Sie die Dropdown-Liste System und Bestandsaufnahme aus.
- Erweitern Sie den Firmwarebestand und suchen Sie nach Komponenten mit der Arbeitsbezeichnung ConnectX in der Beschreibung. Notieren Sie sich die installierte Firmwareversion.

Überprüfen der installierten ConnectX-Treiberversion
Das folgende Verfahren kann auf jedem Computer in einer lokalen Azure-Instanz durchgeführt werden.
- Führen Sie den folgenden Befehl im Host-Betriebssystem aus, um die ausgeführte ConnectX-Treiberversion zu ermitteln:
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

HINWEIS: Verwenden Sie für MC-Nodes die Methoden in diesem Wissensdatenbank-Artikel, um den Nvidia-Treiber und die Firmware bis zum nächsten Update der Apex Cloud Platform-Software manuell herabzustufen.
HINWEIS: Wenn Sie bereits SBE 4.2.2509.n installiert haben, aber kein Downgrade der Mellanox-Firmware durchgeführt haben, führen Sie die folgenden Schritte aus, um die Firmware auf dieselbe Stufe wie den Treiber zurückzustufen.
- Halten Sie den Node an und entladen Sie ihn.
- Anhalten von BitLocker in C: ->
Suspend-BitLocker -MountPoint "C:" -RebootCount 0 - Befolgen Sie die Schritte im Abschnitt "Implementierung der Korrektur", um ein Firmware-Downgrade durchzuführen, indem Sie je nach NIC-Modell das entsprechende DUP aufrufen und das System neu starten.
- Überprüfen Sie in iDRAC, ob das Firmware-Downgrade erfolgreich war.
- Überprüfen Sie die ordnungsgemäße Konnektivität in den Mellanox-NICs und setzen Sie BitLocker fort:
Resume-BitLocker -MountPoint "C:" - Beenden Sie den Wartungsmodus des Nodes. Warten Sie, bis die Storage-Jobs abgeschlossen sind, bevor Sie einen anderen Node anhalten.