Timeout e ripristino dispositivo scheda di rete NVIDIA Mellanox ConnectX

Summary: AX e ACP Per i clienti di Azure che eseguono la soluzione locale di Azure possono riscontrare frequenti reimpostazioni delle schede di rete su più nodi dopo l'installazione di SBE 4.1.2506.n o 4.1.2507.n con il driver della scheda di rete 25.1.26647 ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Panoramica

Le istanze locali di Azure con computer dotati di scheda di rete (scheda di interfaccia di rete) NVIDIA ConnectX potrebbero riscontrare un livello di avviso con ID evento NDIS 10400 e ID evento mlx5 386 dopo l'installazione di SBE versione 4.2.2506.n (AX) o 4.2.2507.n (MC).

 

 

Per cercare questi eventi nel registro eventi, è possibile utilizzare il comando seguente:

Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message

Questi eventi comportano le reimpostazioni della scheda di interfaccia di rete ConnectX che possono causare interruzioni della rete, rimozione del computer dal cluster locale di Azure ed eventi di controllo bug occasionali. Questa condizione è stata osservata in determinati carichi di lavoro con driver mlx5.sys versione 25.1.26647.0 e firmware ConnectX corrispondente installato da SBE 4.2.2506.n (AX) o 4.2.2507.n (MC).

 

Identificazione delle istanze locali di Azure interessate

Il comportamento problematico può verificarsi quando vengono soddisfatte tutte le seguenti condizioni:

  • I computer sono membri di un'istanza locale di Azure
  • I computer hanno una o più schede di rete ConnectX installate
  • SBE 4.2.2506.n (AX) o 4.2.2507.n (MC) è installato nell'istanza locale di Azure
  • La versione del driver della scheda di rete ConnectX in esecuzione è 25.1.26647.0

 

Identificazione della versione del firmware ConnectX installata

La procedura seguente può essere eseguita in ogni computer in un'istanza locale di Azure.

  1. Connettersi all'interfaccia web iDRAC, selezionare l'elenco a discesa System e Inventory.
  2. Espandere l'inventario del firmware e cercare i componenti con il metodo ConnectX nella descrizione. Annotare la versione del firmware installato.

 

 

Identificazione della versione del driver ConnectX installato

La procedura seguente può essere eseguita in ogni computer in un'istanza locale di Azure.

  1. Eseguire il seguente comando nel sistema operativo host per identificare la versione del driver ConnectX in esecuzione:
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

Versioni di driver e firmware ConnectX

Componente

Versione interessata

Versione correzione

Download della versione di correzione

ConnectX Driver

25.1.26647.0

24.4.26429.0

N/D (payload SBE)

ConnectX-6 LX FW

26.44.10.36

26.41.10.00

1h4PM

Firmware ConnectX-6 DX

22.44.10.36

22.41.10.00

2CMVW

ConnectX-5 EN/EX FW

16.35.40.30

16.35.30.06

XY16R

ConnectX-4 LX

14.32.21.02

14.32.20.04

XGP2X

 

 

Cause

Questa condizione è stata osservata sulle soluzioni locali Dell AX e MC Azure in determinati carichi di lavoro con versione del driver mlx5.sys 25.1.26647.0 e firmware ConnectX corrispondente installato da SBE 4.2.2506.n (AX) o 4.2.2507.n (MC). 

Resolution

Implementazione della correzione

Downgrade del firmware della scheda di rete ConnectX prima di installare SBE 4.2.2509.n (AX)

Eseguire la procedura seguente su ogni computer nell'istanza locale di Azure interessata.

  1. Connettersi all'interfaccia web iDRAC, selezionare l'elenco a discesa Maintenance e System Update.
  2. Cliccare sul pulsante Choose File e selezionare il file eseguibile del firmware da installare per la scheda di rete ConnectX nel computer. Cliccare sul pulsante Apri per completare la selezione.
  3. Cliccare sul pulsante Upload per avviare il processo di caricamento.
  4. Una volta completato il processo di caricamento, cliccare sul segno più accanto al file caricato per visualizzare i componenti a cui si applica il file del firmware. Vengono visualizzate la versione del firmware attualmente installata e la versione del firmware disponibile. La versione del firmware disponibile è la versione che verrà installata.
     
  5. Cliccare sulla casella di controllo accanto al file del firmware da installare e selezionare Install. Questa azione prevede lo staging dell'upgrade del firmware della scheda di rete ConnectX; l'upgrade del firmware verrà completato al riavvio del sistema operativo host in un passaggio successivo.
  6. Il processo di installazione della formazione verrà aggiunto alla coda dei processi. Cliccare sul pulsante Job Queue per visualizzare il processo nella coda processi.
  7. Verrà visualizzato l'avanzamento del processo.
  8. Attendere che lo stato del processo indichi 100% completato. Prendere nota dello stato Riavvio del server in sospeso indicato.
  9. Cliccare sul registro del ciclo di vita e notare nuovamente che l'aggiornamento del firmware sarà effettivo dopo il riavvio del server. Il server verrà riavviato automaticamente come parte dell'installazione di SBE in un passaggio successivo.

 

Installazione di SBE 4.2.2509.n

Installare SBE 4.2.2509.n utilizzando il processo di installazione SBE standard. L'installazione di SBE 4.2.2509.n prevede l'installazione di richiama l'installazione del firmware ConnectX in staging, installa il driver SBE 4.2.2509.n e il payload del firmware. La versione del driver mlx5 24.4.26429.0 verrà installata anche come parte dell'installazione di SBE 4.2.2509.n.

 

Verifica dell'esito positivo della correzione

Verificare la versione del driver e del firmware ConnectX dopo l'installazione di SBE 4.2.2509.n.

Verificare la versione del firmware ConnectX installata

La procedura seguente può essere eseguita in ogni computer in un'istanza locale di Azure.

  1. Connettersi all'interfaccia web iDRAC, selezionare l'elenco a discesa System e Inventory.
  2. Espandere l'inventario del firmware e cercare i componenti con il metodo ConnectX nella descrizione. Annotare la versione del firmware installato.

Verificare la versione del driver ConnectX installato

La procedura seguente può essere eseguita in ogni computer in un'istanza locale di Azure.

  1. Eseguire il seguente comando nel sistema operativo host per identificare la versione del driver ConnectX in esecuzione:
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

 

 

NOTA: Per i nodi MC, utilizzare i metodi indicati in questo articolo della Knowledge Base per eseguire manualmente il downgrade del driver e del firmware NVIDIA fino al prossimo aggiornamento software di Apex Cloud Platform. 

 

NOTA: Se è già stato applicato SBE 4.2.2509.n, ma non è stato eseguito il downgrade del firmware Mellanox, utilizzare la procedura riportata di seguito per eseguire il downgrade del firmware allo stesso livello del driver. 

 

  1.       Sospendere e svuotare il nodo.
  2.       Sospendere BitLocker in C:  -> 
    Suspend-BitLocker -MountPoint "C:" -RebootCount 0
  3.       Seguire la procedura descritta nella sezione "Implementing Remediation" per eseguire il downgrade del firmware richiamando il DUP appropriato a seconda del modello di scheda di rete e riavviare il sistema.
  4.      Verificare in IDRAC che il downgrade del FW abbia avuto esito positivo.
  5.      Verificare la corretta connettività nelle schede di rete Mellanox e riprendere BitLocker:  
    Resume-BitLocker -MountPoint "C:"
  6.      Rimuovere il nodo dalla modalità di manutenzione. Prima di sospendere qualsiasi altro nodo, attendere il completamento dei processi di storage. 

 

Affected Products

APEX MC-660, APEX MC-760, ax-650, AX-6515, AX-660, AX-750, AX-7525, AX-760
Article Properties
Article Number: 000376360
Article Type: Solution
Last Modified: 10 Oct 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.