PowerEdge:R760xa — 带桥接的 NVIDIA H100NVL上的 NVLInk 处于非活动状态并且 DCGMI 出现故障

摘要: 报告显示配备 NVIDIA H100NVL GPU 和桥接的 R760XA 上的 NVLink 故障,18 条链路中有 12 条处于活动状态;由于最高 DCGM 版本 3.1.3.1 中的问题,备用链路被错误地标识为关闭。

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

症状

DCGMI 诊断程序报告故障,因为与 NVLink 桥接配合使用时,NVIDIA H100NVL GPU 上的 NVlink 链路断开。

即使在重新拔插或更换两个 GPU、连接两个 GPU 的所有三个 NVlink 桥以及安装它们的转接卡后,问题仍然存在。在 18 个 NVlink 中(每个 NVlink 桥接器 6 个),18 个链路中只有 12 个处于正常运行状态。

故障输出

每个 NVlink 桥接设备上的最后两个链路始终处于非活动状态。

故障输出

原因

H100 硅片有 18 个 NvLink 连接,每组 6 个,但在 H100 NVL PCIE GPU 上,18 个路径中只有 12 个处于启动状态且正常工作,其余路径处于待机状态。

如果 NVlink 桥中的前四个链路碰巧出现问题,则两个“非活动”链路用于故障切换。H100 PCIE GPU 需要 12 个活动链路才能启动。

如果出现坏链路(GPU 和/或桥接),仍需要三段桥接器来实现故障切换。

由于 DCGM 版本 3.1.3.1 及更低版本中的问题,非活动 NVLink 报告为故障。

解决方案

请勿因此问题更换任何硬件。

DCGM 版本 3.1.6 修复了问题。

https://docs.NVIDIA.com/datacenter/dcgm/latest/release-notes/changelog.html本超链接将引导您访问非 Dell Technologies 运营的网站。

客户必须下载并安装 3.1.6 或更高版本才能解决此问题。

受影响的产品

PowerEdge R760XA

产品

Rack Servers
文章属性
文章编号: 000420594
文章类型: Solution
上次修改时间: 05 3月 2026
版本:  2
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。