XE-systemer: Sådan installeres pakker til DCGMI-fejlfinding. RHEL Rocky

Podsumowanie: Sådan gør du DCGM-installation (NVIDIA Data Center GPU Manager) i Linux til indsamling af DCGMI-logfiler til fejlfinding. RHEl/Rocky

Ten artykuł dotyczy Ten artykuł nie dotyczy Ten artykuł nie jest powiązany z żadnym konkretnym produktem. Nie wszystkie wersje produktu zostały zidentyfikowane w tym artykule.

Instrukcje

Forudsætninger
For at køre DCGM skal målsystemet indeholde følgende NVIDIA-komponenter, der er angivet i afhængighedsrækkefølge:
- Understøttede NVIDIA-datacenterdrivere
- På HGX-systemer (Hyperscale Graphics Extension), Fabric Manager og NVSwitch Configuration and Query (NSCQ) pakker
- DCGM Runtime og SDK

For Red Hat eller Rocky-udgivelser:

BEMÆRK: Skærmbilleder er kun til reference, og observerede resultater kan have nogle forskelle.


Installer lagermetadataene og CUDA GPG-nøglen:
[Erstat x86_64 med "sbsa" for arm64 eller erstat med "ppc64le" for ppc64le, hvis det er nødvendigt. Fjern anførselstegn]
Bestem distro:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Visuelt output i terminal af de 2 kommandoer til installation af lagermetadata og CUDA GPG-nøglen

Opdater lagerets metadata.

sudo dnf clean expire-cache

Terminal kører og output af kommandoen

Installer nu DCGM.

sudo dnf install -y datacenter-gpu-manager

Terminal, der kører kommandoen

På HGX-systemer (A100/A800 og H100/H800) skal du installere NVIDIA-switchkonfigurationen, hvis du vil foretage en afstemning blandt NVSwitches. Forespørg NSCQ-biblioteket efter DCGM for at optælle NVSwitches og levere telemetri til switche. NSCQ skal stemme overens med driverversionsgrenen (XXX), der er installeret på systemet. Udskift XXX med den nødvendige drivergren i kommandoerne nedenfor.

sudo dnf module install nvidia-driver:XXX/fm

 

Forespørg operativsystemet efter driverversionen:

nvidia-smi

Terminaludgang af kommandoen

I dette eksempel bruger vi følgende kommando, da vores driverversion vises som 550:

sudo dnf module install nvidia-driver:550/fm

Terminal output af kører

Aktivér DCGM systemd-tjenesten (ved genstart), og start nu:

sudo systemctl --now enable nvidia-dcgm

Visuel repræsentation af

For at bekræfte installationen skal du bruge dcgmi til at forespørge systemet. Du bør se en liste over alle understøttede GPU'er (og eventuelle NVSwitches), der findes i systemet: (kontakten er et lille bogstav L)
DCGMI-registrering – l 

dcgmi discovery -l 

[Eksemplet nedenfor har ikke NvSwitches, men feltet udfyldes med detaljer, hvis de findes eller registreres.]
Terminaludgang for kørsel af

 

Produkty, których dotyczy problem

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
Właściwości artykułu
Numer artykułu: 000223375
Typ artykułu: How To
Ostatnia modyfikacja: 10 kwi 2025
Wersja:  3
Znajdź odpowiedzi na swoje pytania u innych użytkowników produktów Dell
Usługi pomocy technicznej
Sprawdź, czy Twoje urządzenie jest objęte usługą pomocy technicznej.