PowerEdge:NVIDIA DataCenter GPU Manager (DCGM) 安装以及如何运行诊断程序

摘要: 有关如何在 Linux (RHEL/Ubuntu) 中安装 NVIDIA 的 DCGM(数据中心 GPU 管理器)工具以及如何运行和了解诊断应用程序的概述。

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

说明

如何在 Linux 中安装 DCGM:

此超链接会将您带往 Dell Technologies 之外的网站。
https://developer.nvidia.com/dcgm#Downloads此超链接会将您带往 Dell Technologies 之外的网站。
https://github.com/NVIDIA/DCGMDCGM 3.3 用户和安装指南此超链接会将您带往 Dell Technologies 之外的网站。

 

安装最新的 DCGM
下载和使用本软件,即表示您同意完全遵守 NVIDIA DCGM 许可证此超链接会将您带往 Dell Technologies 之外的网站。的条款和条件。
建议使用可从 NVIDIA 驱动程序下载页面此超链接会将您带往 Dell Technologies 之外的网站。下载的最新 R450+ NVIDIA 数据中心驱动程序。
建议的方法是直接从 CUDA 网络存储库安装 DCGM。较旧的 DCGM 版本也可从存储库获得。

 

DCGM的特点:

  • GPU 行为监控
  • GPU 配置管理
  • GPU 策略监督
  • GPU 运行状况和诊断程序
  • GPU 核算和进程统计信息
  • NVSwitch 配置和监视

 

快速入门说明:

Ubuntu LTS
设置 CUDA 网络 存储库元数据、GPG 密钥 下面显示的示例适用于 Ubuntu 20.04 on x86_64:

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb
$ sudo dpkg -i cuda-keyring_1.0-1_all.deb
$ sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /“

 

安装 DCGM。

$ sudo apt-get update
&& sudo apt-get install -y datacenter-gpu-manager

 

红帽
设置 CUDA 网络 存储库元数据、GPG 密钥 下面显示的示例适用于 RHEL 8 on x86_64:

*Pro-Tip for RHEL 9 repo simply replace the 8 below with 9 in the URL string*
$ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo

 

安装 DCGM。

$ sudo dnf clean expire-cache \
&& sudo dnf install -y datacenter-gpu-manager
Set up the DCGM service
$ sudo systemctl --now enable nvidia-dcgm.

 

如何运行 DCGM:

数据中心 GPU 管理器 (DCGM) 是客户从作系统内测试 GPU 的一种更快捷的方法。测试分为四个级别。运行 4 级测试以获得最深入的结果。这通常需要大约 1 小时 30 分钟,但这可能因 GPU 类型和数量而异。该工具能够让客户将测试配置为自动运行并提醒客户。您可以从此 链接此超链接会将您带往 Dell Technologies 之外的网站。找到更多信息。我们建议始终使用最新版本,版本 3.3 是最新版本。

 

 

示例 1:

命令: dcgmi diag -r 1
命令:dcgmi diag -r 1 example

 

 

示例 2:

命令: dcgmi diag -r 2
命令:dcgmi diag -r 2 example

示例 3:

命令: dcgm diag -r 3
命令:dcgm diag -r 3 example

 

示例 4:

命令: dcgm diag -r 4
命令:dcgm diag -r 4 example

 

由于错误的特殊性、工作负载特异性或需要延长运行时间来检测这些错误,诊断程序可能会遗漏一些错误。
如果您看到错误,请对其进行调查以完全了解其性质。
首先拉取 nvidia-bug-report.sh 命令(仅限 Linux作系统原生,无 Windows)并查看输出文件。

 

内存警报故障的示例:
以下示例启用并启动 DCGM 运行状况监控器,并对服务器中所有已安装的 GPU 进行后续检查。您可以看到 GPU3 生成了有关 SBE(单位错误)的警告,以及驱动程序想要停用受影响的内存地址。
命令: dcgmi health -s a (这将启动健康服务,“A”告诉它观察一切)
命令: dcgmi health -c (这将检查所有发现的 GPU 并报告它们)
DCGMI 命令示例

 

您还可以从下面的输出中看到内存故障。经过编辑以仅显示与内存相关的项目,我们可以看到 GPU 遇到了 3,081 个 SBE,生存期总计数为 6,161。我们还看到,GPU 有一个之前的 SBE 已停用页面,以及一个额外的待处理页面黑名单。
您还可以在另一个地方看到内存故障是什么

 

如果您发现 GPU 上存在内存故障,则必须重置设备本身。这是通过整个系统重新启动或对设备发出 nvidia-smi GPU 重置来实现的。
卸载驱动程序后,标记的黑名单内存地址将映射出来。当驱动程序重新加载时,GPU 将获得一个新的地址表,其中受影响的地址将被阻止,类似于 Intel CPU 上的 PPR)。
重置 GPU 失败通常会导致易失性和聚合计数器增加。这是因为 GPU 仍允许使用受影响的地址,因此每次命中计数器时,计数器都会递增。

 

如果您仍然怀疑一个或多个 GPU 出现故障,请运行 NVIDIA fieldiags(629 诊断程序),以便对目标 GPU 进行更深入的检测。

 

**确保为已安装的 GPU 使用最新且正确的 FIELDIAG,这一点至关重要**。

受影响的产品

C Series, Rack Servers, Tower Servers, XE Servers, PowerEdge XE8545, PowerEdge XE8640
文章属性
文章编号: 000219485
文章类型: How To
上次修改时间: 27 5月 2025
版本:  5
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。