PowerEdge:BlueField-3 DPU PCIe 初始化失敗
摘要: 使用 BlueField-3 (BF3) 資料處理器 (DPU) 卡時,在生命週期 (LC) 記錄中遇到 PR8 錯誤 (DPN:高水堆)。
症狀
LifeCycle Controller 記錄 (LC 記錄) 會回報下列錯誤,因為重複的 Peripheral Component Interconnect Express (PCIe) 初始化失敗:
2025-07-27 17:38:59 294 PR8 Device not detected: Nvidia Network Adapter - 5C:25:73:5A:4C:B8(NIC in Slot 33 Port 1 Partition 1)
2025-07-27 17:38:58 293 PR8 Device not detected: Nvidia Network Adapter - 5C:25:73:5A:4C:B9(NIC in Slot 33 Port 2 Partition 1)
2025-07-17 17:30:57 189 PR8 Device not detected: Nvidia Network Adapter - 5C:25:73:5A:4C:B8(NIC in Slot 33 Port 1 Partition 1)
2025-07-17 17:30:57 188 PR8 Device not detected: Nvidia Network Adapter - 5C:25:73:5A:4C:B9(NIC in Slot 33 Port 2 Partition 1)
2025-05-11 17:29:46 46 PR8 Device not detected: Nvidia Network Adapter - 5C:25:73:5A:4C:B8(NIC in Slot 33 Port 1 Partition 1)
2025-05-11 17:29:46 45 PR8 Device not detected: Nvidia Network Adapter - 5C:25:73:5A:4C:B9(NIC in Slot 33 Port 2 Partition 1)
原因
此問題已在 2025 年 8 月 14 日發佈的韌體版本 v32.46.3048 中確認並已解決。
這是已知的 NVIDIA 問題。在 PCIe 網路初始化期間,裝置韌體會影響訓練程序,且從韌體版本 v32.46.3048 開始,問題已解決。
韌體演算法已經過最佳化,可改善 PCIe 連結穩定性。已確認新出貨的 NVIDIA 卡已包含更新的韌體版本 v32.46.3048 或更新版本。
解析度
請勿立即分派替換的網路卡。請先執行完整的電源週期 確認是否可再次偵測到介面卡
- 如果故障的插卡在電源重新啟動後恢復:
將 BlueField-3 韌體更新至 v32.46.3048 或更新版本,並確保 BFB 映像與更新後的韌體對齊。您可以使用 NVIDIA DOCA 軟體框架下載適當的檔案:
https://developer.nvidia.com/doca-downloads?deployment_platform=BlueField&deployment_package=BF-FW-Bundle&installer_type=BFB - 如果重新啟動電源後仍無法偵測到插卡:
請繼續派送更換用介面卡以解決問題。