PowerEdge: Tarjeta DPU NVIDIA Mellanox BlueField-2 de DSS R750 Falla de capacitación de enlace PCIe DPN-GRNMC
Resumen: Las soluciones escalables de centro de datos (DSS) PowerEdge R750 pueden experimentar fallas cuando se ejecutan versiones anteriores de la arquitectura del centro de datos en un chip (DOCA) con la tarjeta de unidad de procesamiento de datos (DPU) NVIDIA Mellanox BlueField-2. ...
Síntomas
La tarjeta de canal de DPU NVIDIA Mellanox MT42822 BlueField-2 100G, DPN# GRNMC, es un adaptador de DPU calificado por DSS que puede equiparse con algunos servidores PowerEdge configurados con DSS de acuerdo con algunos requisitos específicos del usuario de DSS/RCI.
Este adaptador está calificado y soportado por NVIDIA DOCA 1.5.1 o versiones posteriores por el equipo de ingeniería de DSS/RCI de Dell.
Si la imagen DOCA se cambia a una versión anterior a 1.5.1 en este adaptador específico, es posible que se observen varios síntomas de falla en el servidor.
Por ejemplo:
- El evento de falla de capacitación del enlace de PCIe UEFI0067 se registra en el registro de iDRAC/LifeCycle:
- El sistema operativo (SO) del host no puede inicializar el adaptador de DPU.
[ 133.575847] kernel: mlx5_core 0000:ca:00.1: firmware version: 24.35.2000 [ 133.576304] kernel: mlx5_core 0000:ca:00.1: 252.048 Gb/s available PCIe bandwidth (16.0 GT/s PCIe x16 link) [ 153.576974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 100s [ 173.584974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 79s [ 193.592974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 59s [ 213.600975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 39s [ 233.608975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 19s [ 253.584980] kernel: mlx5_core 0000:ca:00.1: mlx5_function_setup:960:(pid 821): Firmware over 120000 MS in pre-initializing state, aborting [ 253.586029] kernel: mlx5_core 0000:ca:00.1: init_one:1366:(pid 821): mlx5_load_one failed with error code -16 [ 253.587272] kernel: mlx5_core: probe of 0000:ca:00.1 failed with error -16
- Los eventos de error irrecuperable del bus PCIe se registran en el registro de iDRAC/Lifecycle, que apunta a la ranura donde está instalado el adaptador de DPU.
Causa
- Tarjeta DPU NVIDIA Mellanox BlueField2 de 32 G (DPN#CH5RM, modelo# MBF2H516A-CEEOT)
- Tarjeta DPU NVIDIA Mellanox BlueField2 de 128 G (DPN#GRNMC, modelo# MBF2H516C-CECOT)
A partir de la versión DOCA 1.5.1 LTS, ambos modelos, DPN#CH5RM y DPN#GRNMC son compatibles.
NVIDIA Mellanox recomienda el paquete DOCA (LTS) 1.5.7 o posterior.
Resolución
Si la imagen DOCA se actualiza a una versión anterior no compatible en este adaptador de DPU de 128 G, utilice el siguiente procedimiento para recuperar la DPU:
Instale los controladores de host DOCA que se encuentran en https://developer.nvidia.com/networking/doca
ejemplo: Para el SO del host de Ubuntu 20.04
- WGET https://content.mellanox.com/DOCA/DOCA_v2.7.0/host/doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb
-
dpkg -i doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb apt-get update apt install doca-all
Descargue e instale el paquete BF2 DOCA más reciente.
- WGET https://content.mellanox.com/BlueField/BFBs/Ubuntu22.04/bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb
-
bfb-install --bfb bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb --rshim rshim0
Una vez finalizada la instalación de DOCA en BF2, restablezca BF2.
-
echo "SW_RESET 1" > /dev/rshim0/mis