PowerEdge:R760xa — 带桥接的 NVIDIA H100NVL上的 NVLInk 处于非活动状态并且 DCGMI 出现故障
摘要: 报告显示配备 NVIDIA H100NVL GPU 和桥接的 R760XA 上的 NVLink 故障,18 条链路中有 12 条处于活动状态;由于最高 DCGM 版本 3.1.3.1 中的问题,备用链路被错误地标识为关闭。
本文适用于
本文不适用于
本文并非针对某种特定的产品。
本文并非包含所有产品版本。
症状
DCGMI 诊断程序报告故障,因为与 NVLink 桥接配合使用时,NVIDIA H100NVL GPU 上的 NVlink 链路断开。
即使在重新拔插或更换两个 GPU、连接两个 GPU 的所有三个 NVlink 桥以及安装它们的转接卡后,问题仍然存在。在 18 个 NVlink 中(每个 NVlink 桥接器 6 个),18 个链路中只有 12 个处于正常运行状态。

每个 NVlink 桥接设备上的最后两个链路始终处于非活动状态。

原因
H100 硅片有 18 个 NvLink 连接,每组 6 个,但在 H100 NVL PCIE GPU 上,18 个路径中只有 12 个处于启动状态且正常工作,其余路径处于待机状态。
如果 NVlink 桥中的前四个链路碰巧出现问题,则两个“非活动”链路用于故障切换。H100 PCIE GPU 需要 12 个活动链路才能启动。
如果出现坏链路(GPU 和/或桥接),仍需要三段桥接器来实现故障切换。
由于 DCGM 版本 3.1.3.1 及更低版本中的问题,非活动 NVLink 报告为故障。
解决方案
请勿因此问题更换任何硬件。
DCGM 版本 3.1.6 修复了问题。
https://docs.NVIDIA.com/datacenter/dcgm/latest/release-notes/changelog.html
客户必须下载并安装 3.1.6 或更高版本才能解决此问题。
受影响的产品
PowerEdge R760XA产品
Rack Servers文章属性
文章编号: 000420594
文章类型: Solution
上次修改时间: 05 3月 2026
版本: 2
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。