R750 DSS:NVIDIA Mellanox BlueField-2 DPU 卡 DPN-GRNMC PCIe 链路训练失败
Riepilogo: 在使用 NVIDIA Mellanox BlueField-2 数据处理单元 (DPU) 卡运行较旧的数据中心片上体系结构 (DOCA) 版本时,PowerEdge R750 数据中心可扩展解决方案 (DSS) 可能会遇到故障。
Questo articolo si applica a
Questo articolo non si applica a
Questo articolo non è legato a un prodotto specifico.
Non tutte le versioni del prodotto sono identificate in questo articolo.
Sintomi
NVIDIA Mellanox MT42822 BlueField-2 100G DPU 通道卡 DPN# GRNMC 是一种符合 DSS 标准的 DPU 适配器,可能会根据某些 DSS/RCI 用户特定要求,为某些 DSS 配置的 PowerEdge 服务器配备。
此适配器经过戴尔 DSS/RCI 工程团队的 NVIDIA DOCA 1.5.1 或更高版本的认证和支持。
如果在此特定适配器上将 DOCA 映像更改为低于 1.5.1 的版本,则可能会在服务器上观察到多个故障症状。
例如:
1.PCIe 链路训练故障事件 UEFI0067记录在 iDRAC/LifeCycle 日志中:
2。主机操作系统 (OS) 无法初始化 DPU 适配器。
3.PCIe 总线致命错误事件记录在 iDRAC/生命周期日志中,指向安装 DPU 适配器的插槽。

此适配器经过戴尔 DSS/RCI 工程团队的 NVIDIA DOCA 1.5.1 或更高版本的认证和支持。
如果在此特定适配器上将 DOCA 映像更改为低于 1.5.1 的版本,则可能会在服务器上观察到多个故障症状。
例如:
1.PCIe 链路训练故障事件 UEFI0067记录在 iDRAC/LifeCycle 日志中:
2。主机操作系统 (OS) 无法初始化 DPU 适配器。
[ 133.575847] kernel: mlx5_core 0000:ca:00.1: firmware version: 24.35.2000 [ 133.576304] kernel: mlx5_core 0000:ca:00.1: 252.048 Gb/s available PCIe bandwidth (16.0 GT/s PCIe x16 link) [ 153.576974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 100s [ 173.584974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 79s [ 193.592974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 59s [ 213.600975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 39s [ 233.608975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 19s [ 253.584980] kernel: mlx5_core 0000:ca:00.1: mlx5_function_setup:960:(pid 821): Firmware over 120000 MS in pre-initializing state, aborting [ 253.586029] kernel: mlx5_core 0000:ca:00.1: init_one:1366:(pid 821): mlx5_load_one failed with error code -16 [ 253.587272] kernel: mlx5_core: probe of 0000:ca:00.1 failed with error -16
3.PCIe 总线致命错误事件记录在 iDRAC/生命周期日志中,指向安装 DPU 适配器的插槽。

Causa
DSS/RCI 工程鉴定了两种型号的 Mellanox BlueField-2 DPU 通道适配器。
从 DOCA 1.5.1 LTS 版本开始,支持两种型号 DPN#CH5RM 和 DPN#GRNMC。
NVIDIA Mellanox 建议使用 DOCA 软件包 (LTS) 1.5.7 或更高版本。
- 32G NVIDIA Mellanox BlueField2 DPU 卡(DPN#CH5RM,Model# MBF2H516A-CEEOT)
- 128G NVIDIA Mellanox BlueField2 DPU 卡(DPN# GRNMC,Model# MBF2H516C-CECOT)
从 DOCA 1.5.1 LTS 版本开始,支持两种型号 DPN#CH5RM 和 DPN#GRNMC。
NVIDIA Mellanox 建议使用 DOCA 软件包 (LTS) 1.5.7 或更高版本。
Risoluzione
如果 Dell PowerEdge 服务器在使用符合 DSS 条件的 NVIDIA Mellanox BlueField2 DPU 适配器 (DPN#GRNMC) 时遇到上述故障症状,请确保已正确安装 DOCA 1.5.1 LTS 或更高版本。
如果在此 128G DPU 适配器上将 DOCA 映像刷新到不支持的较旧版本,请使用以下过程恢复 DPU:
如果在此 128G DPU 适配器上将 DOCA 映像刷新到不支持的较旧版本,请使用以下过程恢复 DPU:
安装 https://developer.nvidia.com/networking/doca
上找到的 DOCA 主机驱动程序示例:对于 Ubuntu 20.04 主机操作系统
- wget https://content.mellanox.com/DOCA/DOCA_v2.7.0/host/doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb
-
dpkg -i doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb apt-get update apt install doca-all
下载并安装最新的 BF2 DOCA 软件包。
- wget https://content.mellanox.com/BlueField/BFBs/Ubuntu22.04/bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb
-
bfb-install --bfb bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb --rshim rshim0
BF2 上的 DOCA 安装完成后,重置 BF2。
-
echo "SW_RESET 1" > /dev/rshim0/mis
Prodotti interessati
Datacenter Scalable Solutions, Mellanox Family of AdaptersProprietà dell'articolo
Numero articolo: 000228342
Tipo di articolo: Solution
Ultima modifica: 03 ott 2024
Versione: 2
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.