XE Systems:如何安装软件包以进行 DCGMI 故障处理。RHEL Rocky

摘要: 如何在 Linux 中安装 DCGM (NVIDIA Data Center GPU Manager) 以收集 DCGMI 日志以进行故障处理。RHEl/洛基

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

说明

前提条件
要运行 DCGM,目标系统必须包括以下 NVIDIA 组件(按相关性顺序列出):
- 支持的 NVIDIA 数据中心驱动程序
- 在 HGX (Hyperscale Graphics Extension) 系统上,Fabric Manager 和 NVSwitch 配置和查询 (NSCQ) 软件包
- DCGM 运行时和 SDK

对于 Red Hat 或 Rocky 版本:

提醒:屏幕截图仅供参考,观察到的结果可能会有一些差异。


安装存储库元数据和 CUDA GPG 密钥:
[如果需要,将 x86_64 替换为 arm64 的“sbsa”,或将 ppc64le 替换为“ppc64le”。删除引号]
确定发行版:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


终端中用于安装存储库元数据和 CUDA GPG 密钥的 2 个命令的可视输出

更新存储库元数据。

sudo dnf clean expire-cache

终端正在运行,并且命令“sudo dnf clean expire-cache”的输出

现在,安装 DCGM。

sudo dnf install -y datacenter-gpu-manager

运行命令“sudo dnf install -y datacenter-gpu-manager”的终端以及相应的输出。

在 HGX 系统(A100/A800 和 H100/H800)上,如果要轮询 NVSwitch,则必须安装 NVIDIA 交换机配置。查询 DCGM 的 NSCQ 库,以枚举 NVSwitch 并为交换机提供遥测。NSCQ 必须与系统上安装的驱动程序版本分支 (XXX) 匹配。在下面的命令中,将 XXX 替换为所需的驱动程序分支。

sudo dnf module install nvidia-driver:XXX/fm

 

查询操作系统的驱动程序版本:

nvidia-smi

“nvidia-smi”命令的终端输出。特别指出,驱动程序版本为 550.54.14。

在此示例中,我们使用以下命令,因为我们的驱动程序版本显示为 550:

sudo dnf module install nvidia-driver:550/fm

运行“sudo dnf module install nvidia-driver:550/fm”的终端输出

启用 DCGM systemd 服务(重新启动时)并立即启动:

sudo systemctl --now enable nvidia-dcgm

在终端中运行“sudo systemctl --now enable nvidia-dcgm”的可视化表示。

要验证安装,请使用 dcgmi 查询系统。您应该会看到在系统中找到的所有受支持的 GPU(以及任何 NVSwitch)的列表:(开关为小写字母 L)
DCGMI 发现 -L 

dcgmi discovery -l 

[下面的示例没有 NvSwitch,但如果存在或检测到 NvSwitch,则该字段会填充详细信息。]
运行“dcgmi discovery -l”的终端输出

 

受影响的产品

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
文章属性
文章编号: 000223375
文章类型: How To
上次修改时间: 10 4月 2025
版本:  3
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。