PowerEdge:NVIDIA DataCenter GPU Manager (DCGM) 安装以及如何运行诊断程序

Summary: 有关如何在 Linux (RHEL/Ubuntu) 中安装 NVIDIA 的 DCGM(数据中心 GPU 管理器)工具以及如何运行和了解诊断应用程序的概述。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

如何在 Linux 中安装 DCGM:

此超链接会将您带往 Dell Technologies 之外的网站。
https://developer.nvidia.com/dcgm#Downloads此超链接会将您带往 Dell Technologies 之外的网站。
https://github.com/NVIDIA/DCGMDCGM 3.3 用户和安装指南此超链接会将您带往 Dell Technologies 之外的网站。

 

安装最新的 DCGM
下载和使用本软件,即表示您同意完全遵守 NVIDIA DCGM 许可证此超链接会将您带往 Dell Technologies 之外的网站。的条款和条件。
建议使用可从 NVIDIA 驱动程序下载页面此超链接会将您带往 Dell Technologies 之外的网站。下载的最新 R450+ NVIDIA 数据中心驱动程序。
建议的方法是直接从 CUDA 网络存储库安装 DCGM。较旧的 DCGM 版本也可从存储库获得。

 

DCGM的特点:

  • GPU 行为监控
  • GPU 配置管理
  • GPU 策略监督
  • GPU 运行状况和诊断程序
  • GPU 核算和进程统计信息
  • NVSwitch 配置和监视

 

快速入门说明:

Ubuntu LTS
设置 CUDA 网络 存储库元数据、GPG 密钥 下面显示的示例适用于 Ubuntu 20.04 on x86_64:

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb
$ sudo dpkg -i cuda-keyring_1.0-1_all.deb
$ sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /“

 

安装 DCGM。

$ sudo apt-get update
&& sudo apt-get install -y datacenter-gpu-manager

 

红帽
设置 CUDA 网络 存储库元数据、GPG 密钥 下面显示的示例适用于 RHEL 8 on x86_64:

*Pro-Tip for RHEL 9 repo simply replace the 8 below with 9 in the URL string*
$ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo

 

安装 DCGM。

$ sudo dnf clean expire-cache \
&& sudo dnf install -y datacenter-gpu-manager
Set up the DCGM service
$ sudo systemctl --now enable nvidia-dcgm.

 

如何运行 DCGM:

数据中心 GPU 管理器 (DCGM) 是客户从作系统内测试 GPU 的一种更快捷的方法。测试分为四个级别。运行 4 级测试以获得最深入的结果。这通常需要大约 1 小时 30 分钟,但这可能因 GPU 类型和数量而异。该工具能够让客户将测试配置为自动运行并提醒客户。您可以从此 链接此超链接会将您带往 Dell Technologies 之外的网站。找到更多信息。我们建议始终使用最新版本,版本 3.3 是最新版本。

 

 

示例 1:

命令: dcgmi diag -r 1
命令:dcgmi diag -r 1 example

 

 

示例 2:

命令: dcgmi diag -r 2
命令:dcgmi diag -r 2 example

示例 3:

命令: dcgm diag -r 3
命令:dcgm diag -r 3 example

 

示例 4:

命令: dcgm diag -r 4
命令:dcgm diag -r 4 example

 

由于错误的特殊性、工作负载特异性或需要延长运行时间来检测这些错误,诊断程序可能会遗漏一些错误。
如果您看到错误,请对其进行调查以完全了解其性质。
首先拉取 nvidia-bug-report.sh 命令(仅限 Linux作系统原生,无 Windows)并查看输出文件。

 

内存警报故障的示例:
以下示例启用并启动 DCGM 运行状况监控器,并对服务器中所有已安装的 GPU 进行后续检查。您可以看到 GPU3 生成了有关 SBE(单位错误)的警告,以及驱动程序想要停用受影响的内存地址。
命令: dcgmi health -s a (这将启动健康服务,“A”告诉它观察一切)
命令: dcgmi health -c (这将检查所有发现的 GPU 并报告它们)
DCGMI 命令示例

 

您还可以从下面的输出中看到内存故障。经过编辑以仅显示与内存相关的项目,我们可以看到 GPU 遇到了 3,081 个 SBE,生存期总计数为 6,161。我们还看到,GPU 有一个之前的 SBE 已停用页面,以及一个额外的待处理页面黑名单。
您还可以在另一个地方看到内存故障是什么

 

如果您发现 GPU 上存在内存故障,则必须重置设备本身。这是通过整个系统重新启动或对设备发出 nvidia-smi GPU 重置来实现的。
卸载驱动程序后,标记的黑名单内存地址将映射出来。当驱动程序重新加载时,GPU 将获得一个新的地址表,其中受影响的地址将被阻止,类似于 Intel CPU 上的 PPR)。
重置 GPU 失败通常会导致易失性和聚合计数器增加。这是因为 GPU 仍允许使用受影响的地址,因此每次命中计数器时,计数器都会递增。

 

如果您仍然怀疑一个或多个 GPU 出现故障,请运行 NVIDIA fieldiags(629 诊断程序),以便对目标 GPU 进行更深入的检测。

 

**确保为已安装的 GPU 使用最新且正确的 FIELDIAG,这一点至关重要**。

Affected Products

C Series, Rack Servers, Tower Servers, XE Servers, PowerEdge XE8545, PowerEdge XE8640
Article Properties
Article Number: 000219485
Article Type: How To
Last Modified: 27 May 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.