XE 系統:如何安裝 DCGMI 故障診斷的套件。RHEL 洛基
摘要: 如何在 Linux 內安裝 DCGM (NVIDIA Data Center GPU Manager),以收集 DCGMI 記錄以進行故障診斷。RHEl/Rocky
本文章適用於
本文章不適用於
本文無關於任何特定產品。
本文未識別所有產品版本。
說明
先決條件 若要執行 DCGM,目標系統必須包含下列 NVIDIA 元件,依相依性順序列出:
- 支援的 NVIDIA 資料中心驅動程式
- 在 HGX (Hyperscale Graphics Extension) 系統上,Fabric Manager 和 NVSwitch Configuration and Query (NSCQ) 套件
- DCGM 執行階段和 SDK
對於 Red Hat 或 Rocky 版本:
注意:螢幕截圖僅供參考,觀察到的結果可能會有一些差異。
安裝儲存庫中繼資料和 CUDA GPG 金鑰:
[如有需要,將 x86_64 替換為 arm64 的「sbsa」或替換為 ppc64le 的「ppc64le」。移除引號]
確定發行版:
distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \ --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo

更新儲存庫中繼資料。
sudo dnf clean expire-cache

現在安裝 DCGM
sudo dnf install -y datacenter-gpu-manager

在 HGX 系統 (A100/A800 和 H100/H800) 上,如果您想要輪詢 NVSwitches,您必須安裝 NVIDIA 交換器組態。查詢 DCGM 的 NSCQ 程式庫,以列舉 NVSwitches 並為交換器提供遙測。NSCQ 必須與系統上安裝的驅動程式版本分支 (XXX) 相符。在以下命令中,將 XXX 替換為所需的驅動程式分支。
sudo dnf module install nvidia-driver:XXX/fm
查詢作業系統的驅動程式版本:
nvidia-smi

在此範例中,我們使用下列命令,因為我們的驅動程式版本顯示為 550:
sudo dnf module install nvidia-driver:550/fm

啟用 DCGM systemd 服務 (重新開機時),並立即開始:
sudo systemctl --now enable nvidia-dcgm

若要驗證安裝,請使用 dcgmi 查詢系統。您應該會看到系統中所有支援的 GPU (以及任何 NVSwitches) 的清單:(開關為小寫 L)
DCGMI 探索 -l
dcgmi discovery -l
[以下範例沒有 NvSwitch,但如果有或偵測到,欄位會填入詳細資料。]
受影響的產品
XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680文章屬性
文章編號: 000223375
文章類型: How To
上次修改時間: 10 4月 2025
版本: 3
向其他 Dell 使用者尋求您問題的答案
支援服務
檢查您的裝置是否在支援服務的涵蓋範圍內。