Systémy XE: Postup instalace balíčků pro odstraňování problémů s DCGMI. RHEL Rocky

摘要: Jak postupovat při instalaci nástroje DCGM (NVIDIA Data Center GPU Manager) v systému Linux za účelem shromažďování protokolů DCGMI pro odstraňování problémů. RHEl/Rocky

本文章適用於 本文章不適用於 本文無關於任何特定產品。 本文未識別所有產品版本。

說明

Předpoklady
Chcete-li spustit nástroj DCGM, musí cílový systém obsahovat následující komponenty NVIDIA uvedené v pořadí závislostí:
- Podporované ovladače
NVIDIA Datacenter- V systémech HGX (Hyperscale Graphics Extension) balíčky Fabric Manager a NSCQ (NVSwitch Configuration and Query)
- Modul runtime DCGM a sada SDK

Pro vydání Red Hat nebo Rocky:

POZNÁMKA: Snímky obrazovky slouží pouze pro referenční účely a pozorované výsledky se mohou lišit.


Nainstalujte metadata úložiště a klíč CUDA GPG:
[V případě potřeby nahraďte x86_64 "sbsa" pro arm64 nebo "ppc64le" pro ppc64le. Odebrat uvozovky]
Určete distribuci:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Vizuální výstup v terminálu 2 příkazů pro instalaci metadat úložiště a klíče CUDA GPG

Aktualizujte metadata úložiště.

sudo dnf clean expire-cache

Terminál je spuštěn a výstup příkazu

Nyní nainstalujte DCGM.

sudo dnf install -y datacenter-gpu-manager

Terminál s příkazem

V systémech HGX (A100/A800 a H100/H800) je nutné nainstalovat konfiguraci přepínače NVIDIA, pokud se chcete dotazovat na karty NVSWITCH. Dotazujte se knihovny NSCQ na nástroj DCGM, aby vytvořila výčet přepínačů NVSwitch a poskytla telemetrii pro přepínače. NSCQ musí odpovídat větvi verze ovladače (XXX) nainstalované v systému. Nahraďte XXX potřebnou větví ovladače v příkazech níže.

sudo dnf module install nvidia-driver:XXX/fm

 

Dotaz v operačním systému na verzi ovladače:

nvidia-smi

Výstup terminálu příkazu

V tomto příkladu použijeme následující příkaz, protože verze ovladače se zobrazuje jako 550:

sudo dnf module install nvidia-driver:550/fm

Výstup terminálu příkazu

Povolte službu DCGM systemd (při restartu) a začněte hned:

sudo systemctl --now enable nvidia-dcgm

Vizuální znázornění příkazu

Chcete-li ověřit instalaci, použijte k dotazování systému dcgmi. Měl by se zobrazit seznam všech podporovaných grafických karet (a všech přepínačů NVSWITCH) nalezených v systému: (přepínač je malé písmeno L)
DCGMI Discovery -L 

dcgmi discovery -l 

[Následující příklad neobsahuje přepínače NvSwitch, ale pole se vyplní podrobnostmi, pokud jsou přítomny nebo zjištěny.]
Výstup terminálu příkazu

 

受影響的產品

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
文章屬性
文章編號: 000223375
文章類型: How To
上次修改時間: 10 4月 2025
版本:  3
向其他 Dell 使用者尋求您問題的答案
支援服務
檢查您的裝置是否在支援服務的涵蓋範圍內。