Tiempo de espera y restablecimiento del dispositivo de NIC Nvidia Mellanox ConnectX
Summary: Los clientes de AX y ACP para Azure que ejecutan la solución local de Azure pueden experimentar restablecimientos frecuentes de NIC en varios nodos después de instalar SBE 4.1.2506.n o 4.1.2507.n, con el controlador de NIC 25.1.26647 ...
Symptoms
Descripción general
Las instancias locales de Azure con máquinas que tienen la NIC (tarjeta de interfaz de red) de NVIDIA ConnectX pueden experimentar el ID de evento NDIS de nivel de advertencia 10400 y el ID de evento mlx5 386 después de instalar la versión 4.2.2.2506.n (AX) o 4.2.2507.n (MC) de SBE.


El siguiente comando se puede utilizar para buscar el registro de eventos de estos eventos:
Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message
Estos eventos implican los restablecimientos de la NIC de ConnectX, lo que puede provocar la interrupción de la red, la expulsión de máquinas del clúster local de Azure y eventos ocasionales de comprobación de errores. Esta condición se ha observado en ciertas cargas de trabajo con mlx5.sys versión 25.1.26647.0 del controlador y el firmware de ConnectX correspondiente instalado mediante SBE 4.2.2506.n (AX) o 4.2.2507.n (MC).
Identificación de instancias locales de Azure afectadas
El comportamiento problemático puede ocurrir cuando se cumplen todas las condiciones siguientes:
- Las máquinas son miembros de una instancia local de Azure
- Las máquinas tienen una o más NIC ConnectX instaladas
- SBE 4.2.2506.n (AX) o 4.2.2507.n (MC) está instalado en la instancia local de Azure
- La versión del controlador de NIC de ConnectX en ejecución es 25.1.26647.0
Identificación de la versión instalada del firmware de ConnectX
El siguiente procedimiento se puede realizar en cada máquina de una instancia local de Azure.
- Conéctese a la interfaz web de iDRAC, seleccione el menú desplegable Sistema e Inventario.
- Expanda Firmware Inventory y busque componentes con el trabajo ConnectX en la descripción. Anote la versión de firmware instalada.

Identificación de la versión instalada del controlador de ConnectX
El siguiente procedimiento se puede realizar en cada máquina de una instancia local de Azure.
- Ejecute el siguiente comando en el sistema operativo host para identificar la versión del controlador de ConnectX en ejecución:
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

Versiones de firmware y controlador de ConnectX
|
Componente |
Versión afectada |
Versión de corrección |
Descarga de la versión de corrección |
|
Controlador de ConnectX |
25.1.26647.0 |
24.4.26429.0 |
N/D (carga útil de SBE) |
|
Firmware ConnectX-6 LX |
26.44.10.36 |
26.41.10.00 |
|
|
Firmware ConnectX-6 DX |
22.44.10.36 |
22.41.10.00 |
|
|
ConnectX-5 EN/EX FW |
16.35.40.30 |
16.35.30.06 |
|
|
ConnectX-4 LX |
14.32.21.02 |
14.32.20.04 |
Cause
Esta condición se ha observado en la solución Dell AX y MC Azure Local en ciertas cargas de trabajo con la versión 25.1.26647.0 del controlador de mlx5.sys y el firmware de ConnectX correspondiente instalado mediante SBE 4.2.2506.n (AX) o 4.2.2507.n (MC).
Resolution
Implementación de la corrección
Cambiar a una versión anterior del firmware de la NIC de ConnectX antes de instalar SBE 4.2.2509.n (AX)
Realice el siguiente procedimiento en cada máquina de la instancia local de Azure afectada.
- Conéctese a la interfaz web de iDRAC, seleccione el menú desplegable Maintenance y seleccione System Update.
- Haga clic en el botón Choose File y seleccione el archivo ejecutable del firmware que se instalará para la NIC ConnectX en el equipo. Haga clic en el botón Open para completar la selección.

- Haga clic en el botón Cargar para iniciar el proceso de carga.

- Una vez finalizado el proceso de carga, haga clic en la opción más junto al archivo que se cargó para ver los componentes a los que se aplica este archivo de firmware. Se mostrarán la versión de firmware instalada actualmente y la versión de firmware disponible. La versión de firmware disponible es la versión que se instalará.
- Haga clic en la casilla de verificación junto al archivo de firmware que desea instalar y seleccione Install. Esta acción organizará la actualización del firmware de la NIC de ConnectX. La actualización del firmware se completará cuando se reinicie el SO del host durante un paso posterior.

- El trabajo de instalación de formación se agregará a la cola de trabajos. Haga clic en el botón Cola de trabajos para ver el trabajo en la cola de trabajos.

- Se mostrará el progreso del trabajo.

- Espere hasta que el estado del trabajo muestre 100 % completado. Observe el estado Server Reboot Pending que se indica.

- Haga clic en Lifecycle Log y vuelva a tener en cuenta que la actualización del firmware entrará en vigencia después de reiniciar el servidor. El servidor se reiniciará automáticamente como parte de la instalación de SBE en un paso posterior.

Instalación de SBE 4.2.2509.n
Instale SBE 4.2.2509.n mediante el proceso de instalación estándar de SBE. La instalación de SBE 4.2.2509.n instalará e invocará la instalación del firmware ConnectX por etapas, instalará la carga útil del firmware y el controlador de SBE 4.2.2509.n. La versión 24.4.26429.0 del controlador mlx5 también se instalará como parte de la instalación de SBE 4.2.2509.n.
Verificación de corrección correcta
Verifique la versión del controlador y del firmware de ConnectX después de instalar correctamente SBE 4.2.2509.n.
Verificar la versión instalada del firmware de ConnectX
El siguiente procedimiento se puede realizar en cada máquina de una instancia local de Azure.
- Conéctese a la interfaz web de iDRAC, seleccione el menú desplegable Sistema e Inventario.
- Expanda Firmware Inventory y busque componentes con el trabajo ConnectX en la descripción. Anote la versión de firmware instalada.

Verificar la versión instalada del controlador de ConnectX
El siguiente procedimiento se puede realizar en cada máquina de una instancia local de Azure.
- Ejecute el siguiente comando en el sistema operativo host para identificar la versión del controlador de ConnectX en ejecución:
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

NOTA: En el caso de los nodos MC, utilice los métodos de esta KB para desactualizar manualmente el controlador y el firmware de Nvidia hasta la próxima actualización de software de Dell APEX Cloud Platform.
NOTA: Si ya aplicó SBE 4.2.2509.n, pero no desactualizó el firmware de Mellanox, siga los pasos que se indican a continuación para degradar el firmware al mismo nivel que el controlador.
- Haga una pausa y drene el nodo.
- Suspender BitLocker en C: ->
Suspend-BitLocker -MountPoint "C:" -RebootCount 0 - Siga los pasos de la sección "Implementación de la corrección" para realizar la desactualización del firmware invocando el DUP correspondiente según el modelo de NIC y reinicie el sistema.
- Verifique en iDRAC que la degradación del firmware se haya realizado correctamente.
- Verifique la conectividad correcta en las NIC Mellanox y reanude BitLocker:
Resume-BitLocker -MountPoint "C:" - Quite el nodo del modo de mantenimiento. Espere a que se completen los trabajos de almacenamiento antes de pausar cualquier otro nodo.