Tiempo de espera y restablecimiento del dispositivo de NIC Nvidia Mellanox ConnectX

Summary: Los clientes de AX y ACP para Azure que ejecutan la solución local de Azure pueden experimentar restablecimientos frecuentes de NIC en varios nodos después de instalar SBE 4.1.2506.n o 4.1.2507.n, con el controlador de NIC 25.1.26647 ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Descripción general

Las instancias locales de Azure con máquinas que tienen la NIC (tarjeta de interfaz de red) de NVIDIA ConnectX pueden experimentar el ID de evento NDIS de nivel de advertencia 10400 y el ID de evento mlx5 386 después de instalar la versión 4.2.2.2506.n (AX) o 4.2.2507.n (MC) de SBE.

 

 

El siguiente comando se puede utilizar para buscar el registro de eventos de estos eventos:

Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message

Estos eventos implican los restablecimientos de la NIC de ConnectX, lo que puede provocar la interrupción de la red, la expulsión de máquinas del clúster local de Azure y eventos ocasionales de comprobación de errores. Esta condición se ha observado en ciertas cargas de trabajo con mlx5.sys versión 25.1.26647.0 del controlador y el firmware de ConnectX correspondiente instalado mediante SBE 4.2.2506.n (AX) o 4.2.2507.n (MC).

 

Identificación de instancias locales de Azure afectadas

El comportamiento problemático puede ocurrir cuando se cumplen todas las condiciones siguientes:

  • Las máquinas son miembros de una instancia local de Azure
  • Las máquinas tienen una o más NIC ConnectX instaladas
  • SBE 4.2.2506.n (AX) o 4.2.2507.n (MC) está instalado en la instancia local de Azure
  • La versión del controlador de NIC de ConnectX en ejecución es 25.1.26647.0

 

Identificación de la versión instalada del firmware de ConnectX

El siguiente procedimiento se puede realizar en cada máquina de una instancia local de Azure.

  1. Conéctese a la interfaz web de iDRAC, seleccione el menú desplegable Sistema e Inventario.
  2. Expanda Firmware Inventory y busque componentes con el trabajo ConnectX en la descripción. Anote la versión de firmware instalada.

 

 

Identificación de la versión instalada del controlador de ConnectX

El siguiente procedimiento se puede realizar en cada máquina de una instancia local de Azure.

  1. Ejecute el siguiente comando en el sistema operativo host para identificar la versión del controlador de ConnectX en ejecución:
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

Versiones de firmware y controlador de ConnectX

Componente

Versión afectada

Versión de corrección

Descarga de la versión de corrección

Controlador de ConnectX

25.1.26647.0

24.4.26429.0

N/D (carga útil de SBE)

Firmware ConnectX-6 LX

26.44.10.36

26.41.10.00

1H4PM

Firmware ConnectX-6 DX

22.44.10.36

22.41.10.00

2CMVW

ConnectX-5 EN/EX FW

16.35.40.30

16.35.30.06

XY16R

ConnectX-4 LX

14.32.21.02

14.32.20.04

XGP2X

 

 

Cause

Esta condición se ha observado en la solución Dell AX y MC Azure Local en ciertas cargas de trabajo con la versión 25.1.26647.0 del controlador de mlx5.sys y el firmware de ConnectX correspondiente instalado mediante SBE 4.2.2506.n (AX) o 4.2.2507.n (MC). 

Resolution

Implementación de la corrección

Cambiar a una versión anterior del firmware de la NIC de ConnectX antes de instalar SBE 4.2.2509.n (AX)

Realice el siguiente procedimiento en cada máquina de la instancia local de Azure afectada.

  1. Conéctese a la interfaz web de iDRAC, seleccione el menú desplegable Maintenance y seleccione System Update.
  2. Haga clic en el botón Choose File y seleccione el archivo ejecutable del firmware que se instalará para la NIC ConnectX en el equipo. Haga clic en el botón Open para completar la selección.
  3. Haga clic en el botón Cargar para iniciar el proceso de carga.
  4. Una vez finalizado el proceso de carga, haga clic en la opción más junto al archivo que se cargó para ver los componentes a los que se aplica este archivo de firmware. Se mostrarán la versión de firmware instalada actualmente y la versión de firmware disponible. La versión de firmware disponible es la versión que se instalará.
     
  5. Haga clic en la casilla de verificación junto al archivo de firmware que desea instalar y seleccione Install. Esta acción organizará la actualización del firmware de la NIC de ConnectX. La actualización del firmware se completará cuando se reinicie el SO del host durante un paso posterior.
  6. El trabajo de instalación de formación se agregará a la cola de trabajos. Haga clic en el botón Cola de trabajos para ver el trabajo en la cola de trabajos.
  7. Se mostrará el progreso del trabajo.
  8. Espere hasta que el estado del trabajo muestre 100 % completado. Observe el estado Server Reboot Pending que se indica.
  9. Haga clic en Lifecycle Log y vuelva a tener en cuenta que la actualización del firmware entrará en vigencia después de reiniciar el servidor. El servidor se reiniciará automáticamente como parte de la instalación de SBE en un paso posterior.

 

Instalación de SBE 4.2.2509.n

Instale SBE 4.2.2509.n mediante el proceso de instalación estándar de SBE. La instalación de SBE 4.2.2509.n instalará e invocará la instalación del firmware ConnectX por etapas, instalará la carga útil del firmware y el controlador de SBE 4.2.2509.n. La versión 24.4.26429.0 del controlador mlx5 también se instalará como parte de la instalación de SBE 4.2.2509.n.

 

Verificación de corrección correcta

Verifique la versión del controlador y del firmware de ConnectX después de instalar correctamente SBE 4.2.2509.n.

Verificar la versión instalada del firmware de ConnectX

El siguiente procedimiento se puede realizar en cada máquina de una instancia local de Azure.

  1. Conéctese a la interfaz web de iDRAC, seleccione el menú desplegable Sistema e Inventario.
  2. Expanda Firmware Inventory y busque componentes con el trabajo ConnectX en la descripción. Anote la versión de firmware instalada.

Verificar la versión instalada del controlador de ConnectX

El siguiente procedimiento se puede realizar en cada máquina de una instancia local de Azure.

  1. Ejecute el siguiente comando en el sistema operativo host para identificar la versión del controlador de ConnectX en ejecución:
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

 

 

NOTA: En el caso de los nodos MC, utilice los métodos de esta KB para desactualizar manualmente el controlador y el firmware de Nvidia hasta la próxima actualización de software de Dell APEX Cloud Platform. 

 

NOTA: Si ya aplicó SBE 4.2.2509.n, pero no desactualizó el firmware de Mellanox, siga los pasos que se indican a continuación para degradar el firmware al mismo nivel que el controlador. 

 

  1.       Haga una pausa y drene el nodo.
  2.       Suspender BitLocker en C:  -> 
    Suspend-BitLocker -MountPoint "C:" -RebootCount 0
  3.       Siga los pasos de la sección "Implementación de la corrección" para realizar la desactualización del firmware invocando el DUP correspondiente según el modelo de NIC y reinicie el sistema.
  4.      Verifique en iDRAC que la degradación del firmware se haya realizado correctamente.
  5.      Verifique la conectividad correcta en las NIC Mellanox y reanude BitLocker:  
    Resume-BitLocker -MountPoint "C:"
  6.      Quite el nodo del modo de mantenimiento. Espere a que se completen los trabajos de almacenamiento antes de pausar cualquier otro nodo. 

 

Affected Products

APEX MC-660, APEX MC-760, ax-650, AX-6515, AX-660, AX-750, AX-7525, AX-760
Article Properties
Article Number: 000376360
Article Type: Solution
Last Modified: 10 Oct 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.