Nvidia Mellanox ConnectX NIC Zeitüberschreitung und Zurücksetzen des Geräts

Summary: AX und ACP Bei Azure-Kunden, die die lokale Azure-Lösung ausführen, kann es nach der Installation von SBE 4.1.2506.n oder 4.1.2507.n mit NIC-Treiber 25.1.26647 zu häufigen NIC-Zurücksetzungen über mehrere Nodes hinweg kommen ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Übersicht

Bei lokalen Azure-Instanzen mit Computern, die über die NVIDIA ConnectX-NIC (Netzwerkschnittstellenkarte) verfügen, kann nach der Installation der SBE-Version 4.2.2506.n (AX) oder 4.2.2507.n (MC) die Warnstufe NDIS-Ereignis-ID 10400 und mlx5-Ereignis-ID 386 auftreten.

 

 

Der folgende Befehl kann verwendet werden, um nach dem Ereignisprotokoll für diese Ereignisse zu suchen:

Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message

Diese Ereignisse umfassen das Zurücksetzen der ConnectX-NIC, was zu Netzwerkunterbrechungen, Computerentfernung aus dem lokalen Azure-Cluster und gelegentlichen Fehlerüberprüfungsereignissen führen kann. Diese Bedingung wurde bei bestimmten Workloads mit mlx5.sys Treiberversion 25.1.26647.0 und der entsprechenden ConnectX-Firmware beobachtet, die von SBE 4.2.2506.n (AX) oder 4.2.2507.n (MC) installiert wird.

 

Identifizieren betroffener lokaler Azure-Instanzen

Das problematische Verhalten kann auftreten, wenn alle folgenden Bedingungen erfüllt sind:

  • Die Computer sind Mitglieder einer lokalen Azure-Instanz
  • Auf den Computern sind eine oder mehrere ConnectX-NICs installiert
  • SBE 4.2.2506.n (AX) oder 4.2.2507.n (MC) ist auf der lokalen Azure-Instanz installiert
  • Die ausgeführte Version des ConnectX-NIC-Treibers ist 25.1.26647.0

 

Identifizieren der installierten ConnectX-Firmwareversion

Das folgende Verfahren kann auf jedem Computer in einer lokalen Azure-Instanz durchgeführt werden.

  1. Stellen Sie eine Verbindung zur iDRAC-Webschnittstelle her, wählen Sie die Dropdown-Liste System und Bestandsaufnahme aus.
  2. Erweitern Sie den Firmwarebestand und suchen Sie nach Komponenten mit der Arbeitsbezeichnung ConnectX in der Beschreibung. Notieren Sie sich die installierte Firmwareversion.

 

 

Identifizieren der installierten ConnectX-Treiberversion

Das folgende Verfahren kann auf jedem Computer in einer lokalen Azure-Instanz durchgeführt werden.

  1. Führen Sie den folgenden Befehl im Host-Betriebssystem aus, um die ausgeführte ConnectX-Treiberversion zu ermitteln:
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

ConnectX-Treiber- und Firmwareversionen

Komponente

Betroffene Version

Korrekturversion

Herunterladen der Korrekturversion

ConnectX-Treiber

25.1.26647.0

24.4.26429.0

N/A (SBE Payload)

ConnectX-6 LX FW

26.44.10.36

26.41.10.00

14:00 UHR

ConnectX-6 DX-FW

22.44.10.36

22.41.10.00

2CMVW

ConnectX-5 EN/EX FW

16.35.40.30

16.35.30.06

XY16R

ConnectX-4 LX

14.32.21.02

14.32.20.04

XGP2X

 

 

Cause

Diese Bedingung wurde auf Dell AX und MC Azure Local Solution unter bestimmten Workloads mit mlx5.sys Treiberversion 25.1.26647.0 und der entsprechenden ConnectX-Firmware beobachtet, die von SBE 4.2.2506.n (AX) oder 4.2.2507.n (MC) installiert wird. 

Resolution

Implementieren von Korrekturmaßnahmen

Downgrade der ConnectX-NIC-Firmware Vor der Installation von SBE 4.2.2509.n (AX)

Führen Sie das folgende Verfahren auf jedem Computer in der betroffenen lokalen Azure-Instanz aus.

  1. Stellen Sie eine Verbindung zur iDRAC-Webschnittstelle her, wählen Sie das Dropdown-Menü Wartung und dann Systemaktualisierung aus.
  2. Klicken Sie auf die Schaltfläche Datei auswählen und wählen Sie die ausführbare Firmwaredatei aus, die für die ConnectX-NIC auf Ihrem Computer installiert werden soll. Klicken Sie auf die Schaltfläche Öffnen, um die Auswahl abzuschließen.
  3. Klicken Sie auf die Schaltfläche Hochladen, um den Uploadvorgang zu starten.
  4. Klicken Sie nach Abschluss des Upload-Vorgangs auf das Pluszeichen neben der hochgeladenen Datei, um die Komponenten anzuzeigen, für die diese Firmware-Datei gilt. Die aktuell installierte Firmware-Version und die verfügbare Firmware-Version werden angezeigt. Die verfügbare Firmwareversion ist die Version, die installiert wird.
     
  5. Aktivieren Sie das Kontrollkästchen neben der zu installierenden Firmware-Datei und wählen Sie "Installieren" aus. Mit dieser Aktion wird das ConnectX NIC-Firmwareupgrade bereitgestellt. Das Firmwareupgrade wird abgeschlossen, wenn das Hostbetriebssystem in einem späteren Schritt neu gestartet wird.
  6. Der Formationsinstallationsjob wird der Jobwarteschlange hinzugefügt. Klicken Sie auf die Schaltfläche Jobwarteschlange, um den Job in der Jobwarteschlange anzuzeigen.
  7. Der Jobfortschritt wird angezeigt.
  8. Warten Sie, bis der Jobstatus 100 % abgeschlossen anzeigt. Notieren Sie sich den angezeigten Status Server Reboot Pending.
  9. Klicken Sie auf das Lifecycle-Protokoll und beachten Sie erneut, dass das Firmwareupdate nach dem Neustart des Servers wirksam wird. Der Server wird im Rahmen der SBE-Installation in einem späteren Schritt automatisch neu gestartet.

 

Installieren von SBE 4.2.2509.n

Installieren Sie SBE 4.2.2509.n mithilfe des Standard-SBE-Installationsprozesses. Bei der Installation von SBE 4.2.2509.n wird die Installation der bereitgestellten ConnectX-Firmware sowie der Treiber und die Firmware-Payload für SBE 4.2.2509.n installiert. Die mlx5-Treiberversion 24.4.26429.0 wird auch im Rahmen der Installation von SBE 4.2.2509.n installiert.

 

Überprüfen der erfolgreichen Korrektur

Überprüfen Sie die ConnectX-Treiber- und Firmwareversion, nachdem SBE 4.2.2509.n erfolgreich installiert wurde.

Überprüfen der installierten ConnectX-Firmwareversion

Das folgende Verfahren kann auf jedem Computer in einer lokalen Azure-Instanz durchgeführt werden.

  1. Stellen Sie eine Verbindung zur iDRAC-Webschnittstelle her, wählen Sie die Dropdown-Liste System und Bestandsaufnahme aus.
  2. Erweitern Sie den Firmwarebestand und suchen Sie nach Komponenten mit der Arbeitsbezeichnung ConnectX in der Beschreibung. Notieren Sie sich die installierte Firmwareversion.

Überprüfen der installierten ConnectX-Treiberversion

Das folgende Verfahren kann auf jedem Computer in einer lokalen Azure-Instanz durchgeführt werden.

  1. Führen Sie den folgenden Befehl im Host-Betriebssystem aus, um die ausgeführte ConnectX-Treiberversion zu ermitteln:
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

 

 

HINWEIS: Verwenden Sie für MC-Nodes die Methoden in diesem Wissensdatenbank-Artikel, um den Nvidia-Treiber und die Firmware bis zum nächsten Update der Apex Cloud Platform-Software manuell herabzustufen. 

 

HINWEIS: Wenn Sie bereits SBE 4.2.2509.n installiert haben, aber kein Downgrade der Mellanox-Firmware durchgeführt haben, führen Sie die folgenden Schritte aus, um die Firmware auf dieselbe Stufe wie den Treiber zurückzustufen. 

 

  1.       Halten Sie den Node an und entladen Sie ihn.
  2.       Anhalten von BitLocker in C:  -> 
    Suspend-BitLocker -MountPoint "C:" -RebootCount 0
  3.       Befolgen Sie die Schritte im Abschnitt "Implementierung der Korrektur", um ein Firmware-Downgrade durchzuführen, indem Sie je nach NIC-Modell das entsprechende DUP aufrufen und das System neu starten.
  4.      Überprüfen Sie in iDRAC, ob das Firmware-Downgrade erfolgreich war.
  5.      Überprüfen Sie die ordnungsgemäße Konnektivität in den Mellanox-NICs und setzen Sie BitLocker fort:  
    Resume-BitLocker -MountPoint "C:"
  6.      Beenden Sie den Wartungsmodus des Nodes. Warten Sie, bis die Storage-Jobs abgeschlossen sind, bevor Sie einen anderen Node anhalten. 

 

Affected Products

APEX MC-660, APEX MC-760, ax-650, AX-6515, AX-660, AX-750, AX-7525, AX-760
Article Properties
Article Number: 000376360
Article Type: Solution
Last Modified: 10 Oct 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.