XE Systems：如何安装软件包以进行 DCGMI 故障处理。RHEL Rocky

摘要: 如何在 Linux 中安装 DCGM （NVIDIA Data Center GPU Manager）以收集 DCGMI 日志以进行故障处理。RHEl/洛基

受影响的产品

本文适用于本文不适用于本文并非针对某种特定的产品。本文并非包含所有产品版本。

说明

前提条件
要运行 DCGM，目标系统必须包括以下 NVIDIA 组件（按相关性顺序列出）：
- 支持的 NVIDIA 数据中心驱动程序
- 在 HGX （Hyperscale Graphics Extension）系统上，Fabric Manager 和 NVSwitch 配置和查询（NSCQ）软件包
- DCGM 运行时和 SDK

对于 Red Hat 或 Rocky 版本：

提醒：屏幕截图仅供参考，观察到的结果可能会有一些差异。

安装存储库元数据和 CUDA GPG 密钥：
[如果需要，将 x86_64 替换为 arm64 的“sbsa”，或将 ppc64le 替换为“ppc64le”。删除引号]
确定发行版：

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)

sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo

终端中用于安装存储库元数据和 CUDA GPG 密钥的 2 个命令的可视输出

更新存储库元数据。

sudo dnf clean expire-cache

终端正在运行，并且命令“sudo dnf clean expire-cache”的输出

现在，安装 DCGM。

sudo dnf install -y datacenter-gpu-manager

运行命令“sudo dnf install -y datacenter-gpu-manager”的终端以及相应的输出。

在 HGX 系统（A100/A800 和 H100/H800）上，如果要轮询 NVSwitch，则必须安装 NVIDIA 交换机配置。查询 DCGM 的 NSCQ 库，以枚举 NVSwitch 并为交换机提供遥测。NSCQ 必须与系统上安装的驱动程序版本分支（XXX）匹配。在下面的命令中，将 XXX 替换为所需的驱动程序分支。

sudo dnf module install nvidia-driver:XXX/fm

查询操作系统的驱动程序版本：

nvidia-smi

“nvidia-smi”命令的终端输出。特别指出，驱动程序版本为 550.54.14。

在此示例中，我们使用以下命令，因为我们的驱动程序版本显示为 550：

sudo dnf module install nvidia-driver:550/fm

运行“sudo dnf module install nvidia-driver：550/fm”的终端输出

启用 DCGM systemd 服务（重新启动时）并立即启动：

sudo systemctl --now enable nvidia-dcgm

在终端中运行“sudo systemctl --now enable nvidia-dcgm”的可视化表示。

要验证安装，请使用 dcgmi 查询系统。您应该会看到在系统中找到的所有受支持的 GPU（以及任何 NVSwitch）的列表：（开关为小写字母 L）
DCGMI 发现 -L

dcgmi discovery -l

[下面的示例没有 NvSwitch，但如果存在或检测到 NvSwitch，则该字段会填充详细信息。]
运行“dcgmi discovery -l”的终端输出

受影响的产品

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680

文章编号: 000223375

文章类型: How To

上次修改时间: 10 4月 2025

版本: 3

XE Systems：如何安装软件包以进行 DCGMI 故障处理。RHEL Rocky

摘要: 如何在 Linux 中安装 DCGM （NVIDIA Data Center GPU Manager）以收集 DCGMI 日志以进行故障处理。RHEl/洛基

说明

受影响的产品

说明

受影响的产品

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

XE Systems：如何安装软件包以进行 DCGMI 故障处理。RHEL Rocky

摘要: 如何在 Linux 中安装 DCGM （NVIDIA Data Center GPU Manager） 以收集 DCGMI 日志以进行故障处理。RHEl/洛基

详细文章

说明

受影响的产品

说明

受影响的产品

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

摘要: 如何在 Linux 中安装 DCGM （NVIDIA Data Center GPU Manager）以收集 DCGMI 日志以进行故障处理。RHEl/洛基