XE 系統:如何安裝 DCGMI 故障診斷的套件。RHEL 洛基

摘要: 如何在 Linux 內安裝 DCGM (NVIDIA Data Center GPU Manager),以收集 DCGMI 記錄以進行故障診斷。RHEl/Rocky

本文章適用於 本文章不適用於 本文無關於任何特定產品。 本文未識別所有產品版本。

說明


先決條件 若要執行 DCGM,目標系統必須包含下列 NVIDIA 元件,依相依性順序列出:
- 支援的 NVIDIA 資料中心驅動程式
- 在 HGX (Hyperscale Graphics Extension) 系統上,Fabric Manager 和 NVSwitch Configuration and Query (NSCQ) 套件
- DCGM 執行階段和 SDK

對於 Red Hat 或 Rocky 版本:

注意:螢幕截圖僅供參考,觀察到的結果可能會有一些差異。


安裝儲存庫中繼資料和 CUDA GPG 金鑰:
[如有需要,將 x86_64 替換為 arm64 的「sbsa」或替換為 ppc64le 的「ppc64le」。移除引號]
確定發行版:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


用於安裝儲存庫元數據和 CUDA GPG 金鑰的 2 個命令的終端機中的視覺輸出

更新儲存庫中繼資料。

sudo dnf clean expire-cache

終端機正在執行,且命令「sudo dnf clean expire-cache」輸出

現在安裝 DCGM

sudo dnf install -y datacenter-gpu-manager

執行命令「sudo dnf install -y datacenter-gpu-manager」及對應輸出的終端機。

在 HGX 系統 (A100/A800 和 H100/H800) 上,如果您想要輪詢 NVSwitches,您必須安裝 NVIDIA 交換器組態。查詢 DCGM 的 NSCQ 程式庫,以列舉 NVSwitches 並為交換器提供遙測。NSCQ 必須與系統上安裝的驅動程式版本分支 (XXX) 相符。在以下命令中,將 XXX 替換為所需的驅動程式分支。

sudo dnf module install nvidia-driver:XXX/fm

 

查詢作業系統的驅動程式版本:

nvidia-smi

「nvidia-smi」命令的終端機輸出。特別指出驅動程式版本為 550.54.14。

在此範例中,我們使用下列命令,因為我們的驅動程式版本顯示為 550:

sudo dnf module install nvidia-driver:550/fm

執行「sudo dnf module install nvidia-driver:550/fm」的終端機輸出

啟用 DCGM systemd 服務 (重新開機時),並立即開始:

sudo systemctl --now enable nvidia-dcgm

在終端機中執行「sudo systemctl --now enable nvidia-dcgm」的視覺化表示。

若要驗證安裝,請使用 dcgmi 查詢系統。您應該會看到系統中所有支援的 GPU (以及任何 NVSwitches) 的清單:(開關為小寫 L)
DCGMI 探索 -l 

dcgmi discovery -l 

[以下範例沒有 NvSwitch,但如果有或偵測到,欄位會填入詳細資料。]
執行「dcgmi discovery -l」的終端機輸出

 

受影響的產品

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
文章屬性
文章編號: 000223375
文章類型: How To
上次修改時間: 10 4月 2025
版本:  3
向其他 Dell 使用者尋求您問題的答案
支援服務
檢查您的裝置是否在支援服務的涵蓋範圍內。