XE-systemer: Sådan installeres pakker til DCGMI-fejlfinding. RHEL Rocky

摘要: Sådan gør du DCGM-installation (NVIDIA Data Center GPU Manager) i Linux til indsamling af DCGMI-logfiler til fejlfinding. RHEl/Rocky

本文章適用於 本文章不適用於 本文無關於任何特定產品。 本文未識別所有產品版本。

說明

Forudsætninger
For at køre DCGM skal målsystemet indeholde følgende NVIDIA-komponenter, der er angivet i afhængighedsrækkefølge:
- Understøttede NVIDIA-datacenterdrivere
- På HGX-systemer (Hyperscale Graphics Extension), Fabric Manager og NVSwitch Configuration and Query (NSCQ) pakker
- DCGM Runtime og SDK

For Red Hat eller Rocky-udgivelser:

BEMÆRK: Skærmbilleder er kun til reference, og observerede resultater kan have nogle forskelle.


Installer lagermetadataene og CUDA GPG-nøglen:
[Erstat x86_64 med "sbsa" for arm64 eller erstat med "ppc64le" for ppc64le, hvis det er nødvendigt. Fjern anførselstegn]
Bestem distro:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Visuelt output i terminal af de 2 kommandoer til installation af lagermetadata og CUDA GPG-nøglen

Opdater lagerets metadata.

sudo dnf clean expire-cache

Terminal kører og output af kommandoen

Installer nu DCGM.

sudo dnf install -y datacenter-gpu-manager

Terminal, der kører kommandoen

På HGX-systemer (A100/A800 og H100/H800) skal du installere NVIDIA-switchkonfigurationen, hvis du vil foretage en afstemning blandt NVSwitches. Forespørg NSCQ-biblioteket efter DCGM for at optælle NVSwitches og levere telemetri til switche. NSCQ skal stemme overens med driverversionsgrenen (XXX), der er installeret på systemet. Udskift XXX med den nødvendige drivergren i kommandoerne nedenfor.

sudo dnf module install nvidia-driver:XXX/fm

 

Forespørg operativsystemet efter driverversionen:

nvidia-smi

Terminaludgang af kommandoen

I dette eksempel bruger vi følgende kommando, da vores driverversion vises som 550:

sudo dnf module install nvidia-driver:550/fm

Terminal output af kører

Aktivér DCGM systemd-tjenesten (ved genstart), og start nu:

sudo systemctl --now enable nvidia-dcgm

Visuel repræsentation af

For at bekræfte installationen skal du bruge dcgmi til at forespørge systemet. Du bør se en liste over alle understøttede GPU'er (og eventuelle NVSwitches), der findes i systemet: (kontakten er et lille bogstav L)
DCGMI-registrering – l 

dcgmi discovery -l 

[Eksemplet nedenfor har ikke NvSwitches, men feltet udfyldes med detaljer, hvis de findes eller registreres.]
Terminaludgang for kørsel af

 

受影響的產品

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
文章屬性
文章編號: 000223375
文章類型: How To
上次修改時間: 10 4月 2025
版本:  3
向其他 Dell 使用者尋求您問題的答案
支援服務
檢查您的裝置是否在支援服務的涵蓋範圍內。