PowerEdge:NVIDIA DataCenter GPU Manager (DCGM) 安装以及如何运行诊断程序
Summary: 有关如何在 Linux (RHEL/Ubuntu) 中安装 NVIDIA 的 DCGM(数据中心 GPU 管理器)工具以及如何运行和了解诊断应用程序的概述。
Instructions
如何在 Linux 中安装 DCGM:
https://developer.nvidia.com/dcgm#Downloads
https://github.com/NVIDIA/DCGMDCGM 3.3 用户和安装指南
安装最新的 DCGM
下载和使用本软件,即表示您同意完全遵守 NVIDIA DCGM 许可证的条款和条件。
建议使用可从 NVIDIA 驱动程序下载页面下载的最新 R450+ NVIDIA 数据中心驱动程序。
建议的方法是直接从 CUDA 网络存储库安装 DCGM。较旧的 DCGM 版本也可从存储库获得。
DCGM的特点:
- GPU 行为监控
- GPU 配置管理
- GPU 策略监督
- GPU 运行状况和诊断程序
- GPU 核算和进程统计信息
- NVSwitch 配置和监视
快速入门说明:
Ubuntu LTS
设置 CUDA 网络 存储库元数据、GPG 密钥 下面显示的示例适用于 Ubuntu 20.04 on x86_64:
$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb $ sudo dpkg -i cuda-keyring_1.0-1_all.deb $ sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /“
安装 DCGM。
$ sudo apt-get update && sudo apt-get install -y datacenter-gpu-manager
红帽
设置 CUDA 网络 存储库元数据、GPG 密钥 下面显示的示例适用于 RHEL 8 on x86_64:
*Pro-Tip for RHEL 9 repo simply replace the 8 below with 9 in the URL string* $ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
安装 DCGM。
$ sudo dnf clean expire-cache \ && sudo dnf install -y datacenter-gpu-manager Set up the DCGM service $ sudo systemctl --now enable nvidia-dcgm.
如何运行 DCGM:
数据中心 GPU 管理器 (DCGM) 是客户从作系统内测试 GPU 的一种更快捷的方法。测试分为四个级别。运行 4 级测试以获得最深入的结果。这通常需要大约 1 小时 30 分钟,但这可能因 GPU 类型和数量而异。该工具能够让客户将测试配置为自动运行并提醒客户。您可以从此 链接找到更多信息。我们建议始终使用最新版本,版本 3.3 是最新版本。
示例 1:
命令: dcgmi diag -r 1
示例 2:
命令: dcgmi diag -r 2
示例 3:
命令: dcgm diag -r 3
示例 4:
命令: dcgm diag -r 4
由于错误的特殊性、工作负载特异性或需要延长运行时间来检测这些错误,诊断程序可能会遗漏一些错误。
如果您看到错误,请对其进行调查以完全了解其性质。
首先拉取 nvidia-bug-report.sh 命令(仅限 Linux作系统原生,无 Windows)并查看输出文件。
内存警报故障的示例:
以下示例启用并启动 DCGM 运行状况监控器,并对服务器中所有已安装的 GPU 进行后续检查。您可以看到 GPU3 生成了有关 SBE(单位错误)的警告,以及驱动程序想要停用受影响的内存地址。
命令: dcgmi health -s a (这将启动健康服务,“A”告诉它观察一切)
命令: dcgmi health -c (这将检查所有发现的 GPU 并报告它们)
您还可以从下面的输出中看到内存故障。经过编辑以仅显示与内存相关的项目,我们可以看到 GPU 遇到了 3,081 个 SBE,生存期总计数为 6,161。我们还看到,GPU 有一个之前的 SBE 已停用页面,以及一个额外的待处理页面黑名单。
如果您发现 GPU 上存在内存故障,则必须重置设备本身。这是通过整个系统重新启动或对设备发出 nvidia-smi GPU 重置来实现的。
卸载驱动程序后,标记的黑名单内存地址将映射出来。当驱动程序重新加载时,GPU 将获得一个新的地址表,其中受影响的地址将被阻止,类似于 Intel CPU 上的 PPR)。
重置 GPU 失败通常会导致易失性和聚合计数器增加。这是因为 GPU 仍允许使用受影响的地址,因此每次命中计数器时,计数器都会递增。
如果您仍然怀疑一个或多个 GPU 出现故障,请运行 NVIDIA fieldiags(629 诊断程序),以便对目标 GPU 进行更深入的检测。
**确保为已安装的 GPU 使用最新且正确的 FIELDIAG,这一点至关重要**。