R750 DSS:NVIDIA Mellanox BlueField-2 DPU 卡 DPN-GRNMC PCIe 链路训练失败

Riepilogo: 在使用 NVIDIA Mellanox BlueField-2 数据处理单元 (DPU) 卡运行较旧的数据中心片上体系结构 (DOCA) 版本时,PowerEdge R750 数据中心可扩展解决方案 (DSS) 可能会遇到故障。

Questo articolo si applica a Questo articolo non si applica a Questo articolo non è legato a un prodotto specifico. Non tutte le versioni del prodotto sono identificate in questo articolo.

Sintomi

NVIDIA Mellanox MT42822 BlueField-2 100G DPU 通道卡 DPN# GRNMC 是一种符合 DSS 标准的 DPU 适配器,可能会根据某些 DSS/RCI 用户特定要求,为某些 DSS 配置的 PowerEdge 服务器配备。
此适配器经过戴尔 DSS/RCI 工程团队的 NVIDIA DOCA 1.5.1 或更高版本的认证和支持。
如果在此特定适配器上将 DOCA 映像更改为低于 1.5.1 的版本,则可能会在服务器上观察到多个故障症状。
例如:

1.PCIe 链路训练故障事件 UEFI0067记录在 iDRAC/LifeCycle 日志中:
PCIe 链路训练失败事件

2。主机操作系统 (OS) 无法初始化 DPU 适配器。 
[  133.575847] kernel: mlx5_core 0000:ca:00.1: firmware version: 24.35.2000
[  133.576304] kernel: mlx5_core 0000:ca:00.1: 252.048 Gb/s available PCIe bandwidth (16.0 GT/s PCIe x16 link)
[  153.576974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 100s
[  173.584974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 79s
[  193.592974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 59s
[  213.600975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 39s
[  233.608975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 19s
[  253.584980] kernel: mlx5_core 0000:ca:00.1: mlx5_function_setup:960:(pid 821): Firmware over 120000 MS in pre-initializing state, aborting
[  253.586029] kernel: mlx5_core 0000:ca:00.1: init_one:1366:(pid 821): mlx5_load_one failed with error code -16
[  253.587272] kernel: mlx5_core: probe of 0000:ca:00.1 failed with error -16

3.PCIe 总线致命错误事件记录在 iDRAC/生命周期日志中,指向安装 DPU 适配器的插槽。
PCIe 总线致命错误事件

Causa

DSS/RCI 工程鉴定了两种型号的 Mellanox BlueField-2 DPU 通道适配器。
  1. 32G NVIDIA Mellanox BlueField2 DPU 卡(DPN#CH5RM,Model# MBF2H516A-CEEOT) 
  2. 128G NVIDIA Mellanox BlueField2 DPU 卡(DPN# GRNMC,Model# MBF2H516C-CECOT)
在之前的 DOCA 1.5.0 LTS 版本中,仅支持一种型号。DPN#CH5RM
从 DOCA 1.5.1 LTS 版本开始,支持两种型号 DPN#CH5RM 和 DPN#GRNMC。
NVIDIA Mellanox 建议使用 DOCA 软件包 (LTS) 1.5.7 或更高版本。

Risoluzione

如果 Dell PowerEdge 服务器在使用符合 DSS 条件的 NVIDIA Mellanox BlueField2 DPU 适配器 (DPN#GRNMC) 时遇到上述故障症状,请确保已正确安装 DOCA 1.5.1 LTS 或更高版本。

如果在此 128G DPU 适配器上将 DOCA 映像刷新到不支持的较旧版本,请使用以下过程恢复 DPU:

安装 https://developer.nvidia.com/networking/doca此超链接会将您带往 Dell Technologies 之外的网站。
上找到的 DOCA 主机驱动程序示例:对于 Ubuntu 20.04 主机操作系统

  1. wget https://content.mellanox.com/DOCA/DOCA_v2.7.0/host/doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb此超链接会将您带往 Dell Technologies 之外的网站。
  2. dpkg -i doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb
    apt-get update
    apt install doca-all

下载并安装最新的 BF2 DOCA 软件包。

  1. wget https://content.mellanox.com/BlueField/BFBs/Ubuntu22.04/bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb此超链接会将您带往 Dell Technologies 之外的网站。
  2. bfb-install --bfb bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb --rshim rshim0


BF2 上的 DOCA 安装完成后,重置 BF2。

  1. echo "SW_RESET 1" > /dev/rshim0/mis

Prodotti interessati

Datacenter Scalable Solutions, Mellanox Family of Adapters
Proprietà dell'articolo
Numero articolo: 000228342
Tipo di articolo: Solution
Ultima modifica: 03 ott 2024
Versione:  2
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.