PowerEdge:BlueField-3 DPU PCIe 初始化失败
摘要: 使用 BlueField-3 (BF3) 数据处理单元 (DPU) 卡 (DPN:HFWRM)。
症状
由于反复的外围组件互联高速 (PCIe) 初始化失败,LifeCycle 控制器日志(LC 日志)报告以下错误:
2025-07-27 17:38:59 294 PR8 Device not detected: Nvidia Network Adapter - 5C:25:73:5A:4C:B8(NIC in Slot 33 Port 1 Partition 1)
2025-07-27 17:38:58 293 PR8 Device not detected: Nvidia Network Adapter - 5C:25:73:5A:4C:B9(NIC in Slot 33 Port 2 Partition 1)
2025-07-17 17:30:57 189 PR8 Device not detected: Nvidia Network Adapter - 5C:25:73:5A:4C:B8(NIC in Slot 33 Port 1 Partition 1)
2025-07-17 17:30:57 188 PR8 Device not detected: Nvidia Network Adapter - 5C:25:73:5A:4C:B9(NIC in Slot 33 Port 2 Partition 1)
2025-05-11 17:29:46 46 PR8 Device not detected: Nvidia Network Adapter - 5C:25:73:5A:4C:B8(NIC in Slot 33 Port 1 Partition 1)
2025-05-11 17:29:46 45 PR8 Device not detected: Nvidia Network Adapter - 5C:25:73:5A:4C:B9(NIC in Slot 33 Port 2 Partition 1)
原因
此问题已在 2025 年 8 月 14 日发布的固件版本 v32.46.3048 中得到确认并得到解决。
这是一个已知的 NVIDIA 问题。在 PCIe 网络初始化期间,设备固件影响了训练过程,此问题已从固件版本 v32.46.3048 开始得到解决。
固件算法经过优化,可提高 PCIe 链路稳定性。经确认,新发货的 NVIDIA 显卡已经包含更新的固件版本 v32.46.3048 或更高版本。
解决方案
请勿立即派送更换网卡。首先,运行完整的电源关闭后重启,以验证卡是否再次可检测到。
- 如果重启电源后故障卡恢复:
将 BlueField-3 固件更新到 v32.46.3048 或更高版本,并确保 BFB 映像与更新的固件对齐。您可以使用 NVIDIA DOCA Software Framework:
下载相应的文件:https://developer.nvidia.com/doca-downloads?deployment_platform=BlueField&deployment_package=BF-FW-Bundle&installer_type=BFB - 如果在重启电源后仍然检测不到该卡:
继续派送更换卡以解决此问题。