PowerEdge: Tarjeta DPU NVIDIA Mellanox BlueField-2 de DSS R750 Falla de capacitación de enlace PCIe DPN-GRNMC

Resumen: Las soluciones escalables de centro de datos (DSS) PowerEdge R750 pueden experimentar fallas cuando se ejecutan versiones anteriores de la arquitectura del centro de datos en un chip (DOCA) con la tarjeta de unidad de procesamiento de datos (DPU) NVIDIA Mellanox BlueField-2. ...

Este artículo se aplica a Este artículo no se aplica a Este artículo no está vinculado a ningún producto específico. No se identifican todas las versiones del producto en este artículo.

Síntomas

La tarjeta de canal de DPU NVIDIA Mellanox MT42822 BlueField-2 100G, DPN# GRNMC, es un adaptador de DPU calificado por DSS que puede equiparse con algunos servidores PowerEdge configurados con DSS de acuerdo con algunos requisitos específicos del usuario de DSS/RCI.
Este adaptador está calificado y soportado por NVIDIA DOCA 1.5.1 o versiones posteriores por el equipo de ingeniería de DSS/RCI de Dell. 
Si la imagen DOCA se cambia a una versión anterior a 1.5.1 en este adaptador específico, es posible que se observen varios síntomas de falla en el servidor.

Por ejemplo:

  1. El evento de falla de capacitación del enlace de PCIe UEFI0067 se registra en el registro de iDRAC/LifeCycle:
    Eventos de falla de capacitación de enlaces PCIe

  2. El sistema operativo (SO) del host no puede inicializar el adaptador de DPU. 
    [  133.575847] kernel: mlx5_core 0000:ca:00.1: firmware version: 24.35.2000
    [  133.576304] kernel: mlx5_core 0000:ca:00.1: 252.048 Gb/s available PCIe bandwidth (16.0 GT/s PCIe x16 link)
    [  153.576974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 100s
    [  173.584974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 79s
    [  193.592974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 59s
    [  213.600975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 39s
    [  233.608975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 19s
    [  253.584980] kernel: mlx5_core 0000:ca:00.1: mlx5_function_setup:960:(pid 821): Firmware over 120000 MS in pre-initializing state, aborting
    [  253.586029] kernel: mlx5_core 0000:ca:00.1: init_one:1366:(pid 821): mlx5_load_one failed with error code -16
    [  253.587272] kernel: mlx5_core: probe of 0000:ca:00.1 failed with error -16

 

  1. Los eventos de error irrecuperable del bus PCIe se registran en el registro de iDRAC/Lifecycle, que apunta a la ranura donde está instalado el adaptador de DPU.
    Eventos de error irrecuperable del bus PCIe 

Causa

Los ingenieros de DSS/RCI calificaron dos modelos del adaptador de canal DPU Mellanox BlueField-2.
  1. Tarjeta DPU NVIDIA Mellanox BlueField2 de 32 G (DPN#CH5RM, modelo# MBF2H516A-CEEOT) 
  2. Tarjeta DPU NVIDIA Mellanox BlueField2 de 128 G (DPN#GRNMC, modelo# MBF2H516C-CECOT)
En la versión anterior de DOCA 1.5.0 LTS, solo se admite un modelo. DPN#CH5RM
A partir de la versión DOCA 1.5.1 LTS, ambos modelos, DPN#CH5RM y DPN#GRNMC son compatibles.
NVIDIA Mellanox recomienda el paquete DOCA (LTS) 1.5.7 o posterior.

Resolución

Si el servidor Dell PowerEdge experimenta los síntomas de falla mencionados con el adaptador de DPU NVIDIA Mellanox BlueField2 calificado por DSS (DPN#GRNMC), asegúrese de que DOCA 1.5.1 LTS o una versión posterior esté instalada correctamente.

Si la imagen DOCA se actualiza a una versión anterior no compatible en este adaptador de DPU de 128 G, utilice el siguiente procedimiento para recuperar la DPU:

Instale los controladores de host DOCA que se encuentran en https://developer.nvidia.com/networking/docaEste hipervínculo lo redirige a un sitio web fuera de Dell Technologies.
ejemplo: Para el SO del host de Ubuntu 20.04

  1. WGET https://content.mellanox.com/DOCA/DOCA_v2.7.0/host/doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.debEste hipervínculo lo redirige a un sitio web fuera de Dell Technologies.
  2. dpkg -i doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb
    apt-get update
    apt install doca-all

Descargue e instale el paquete BF2 DOCA más reciente.

  1. WGET https://content.mellanox.com/BlueField/BFBs/Ubuntu22.04/bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfbEste hipervínculo lo redirige a un sitio web fuera de Dell Technologies.
  2. bfb-install --bfb bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb --rshim rshim0


Una vez finalizada la instalación de DOCA en BF2, restablezca BF2.

  1. echo "SW_RESET 1" > /dev/rshim0/mis

Productos afectados

Datacenter Scalable Solutions, Mellanox Family of Adapters, Ubuntu Server LTS
Propiedades del artículo
Número del artículo: 000228342
Tipo de artículo: Solution
Última modificación: 23 mar 2026
Versión:  3
Encuentre respuestas a sus preguntas de otros usuarios de Dell
Servicios de soporte
Compruebe si el dispositivo está cubierto por los servicios de soporte.