XE Systems:如何安装软件包以进行 DCGMI 故障处理。RHEL Rocky
摘要: 如何在 Linux 中安装 DCGM (NVIDIA Data Center GPU Manager) 以收集 DCGMI 日志以进行故障处理。RHEl/洛基
本文适用于
本文不适用于
本文并非针对某种特定的产品。
本文并非包含所有产品版本。
说明
前提条件
要运行 DCGM,目标系统必须包括以下 NVIDIA 组件(按相关性顺序列出):
- 支持的 NVIDIA 数据中心驱动程序
- 在 HGX (Hyperscale Graphics Extension) 系统上,Fabric Manager 和 NVSwitch 配置和查询 (NSCQ) 软件包
- DCGM 运行时和 SDK
对于 Red Hat 或 Rocky 版本:
提醒:屏幕截图仅供参考,观察到的结果可能会有一些差异。
安装存储库元数据和 CUDA GPG 密钥:
[如果需要,将 x86_64 替换为 arm64 的“sbsa”,或将 ppc64le 替换为“ppc64le”。删除引号]
确定发行版:
distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \ --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo

更新存储库元数据。
sudo dnf clean expire-cache

现在,安装 DCGM。
sudo dnf install -y datacenter-gpu-manager

在 HGX 系统(A100/A800 和 H100/H800)上,如果要轮询 NVSwitch,则必须安装 NVIDIA 交换机配置。查询 DCGM 的 NSCQ 库,以枚举 NVSwitch 并为交换机提供遥测。NSCQ 必须与系统上安装的驱动程序版本分支 (XXX) 匹配。在下面的命令中,将 XXX 替换为所需的驱动程序分支。
sudo dnf module install nvidia-driver:XXX/fm
查询操作系统的驱动程序版本:
nvidia-smi

在此示例中,我们使用以下命令,因为我们的驱动程序版本显示为 550:
sudo dnf module install nvidia-driver:550/fm

启用 DCGM systemd 服务(重新启动时)并立即启动:
sudo systemctl --now enable nvidia-dcgm

要验证安装,请使用 dcgmi 查询系统。您应该会看到在系统中找到的所有受支持的 GPU(以及任何 NVSwitch)的列表:(开关为小写字母 L)
DCGMI 发现 -L
dcgmi discovery -l
[下面的示例没有 NvSwitch,但如果存在或检测到 NvSwitch,则该字段会填充详细信息。]
受影响的产品
XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680文章属性
文章编号: 000223375
文章类型: How To
上次修改时间: 10 4月 2025
版本: 3
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。