XE-systemer: Slik installerer du pakker for DCGMI-feilsøking. RHEL Rocky

Podsumowanie: Hvordan for DCGM (NVIDIA Data Center GPU Manager) installasjon i Linux for å samle DCGMI-logger for feilsøking. RHEl/Rocky

Ten artykuł dotyczy Ten artykuł nie dotyczy Ten artykuł nie jest powiązany z żadnym konkretnym produktem. Nie wszystkie wersje produktu zostały zidentyfikowane w tym artykule.

Instrukcje

Forutsetninger
For å kjøre DCGM må målsystemet inneholde følgende NVIDIA-komponenter, oppført i avhengighetsrekkefølge:
– Støttede NVIDIA Datacenter-drivere
– på HGX-systemer (Hyperscale Graphics Extension), Fabric Manager og NVSwitch Configuration and Query (NSCQ)-pakker
– DCGM Runtime og SDK

For Red Hat- eller Rocky-utgivelser:

MERK: Skjermbilder er kun ment som referanse, og observerte resultater kan ha noen forskjeller.


Installer repositoriummetadataene og CUDA GPG-nøkkelen:
[Erstatt x86_64 med "sbsa" for arm64 eller erstatt med "ppc64le" for ppc64le om nødvendig. Fjern anførselstegn]
Bestem Distro:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Visuell utgang i terminal av de 2 kommandoene for installasjon av depotmetadata og CUDA GPG-nøkkelen

Oppdater metadataene for repositoriet.

sudo dnf clean expire-cache

Terminal kjører og resultatet av kommandoen

Nå, installer DCGM.

sudo dnf install -y datacenter-gpu-manager

Terminal kjører kommandoen

På HGX-systemer (A100/A800 og H100/H800) må du installere NVIDIA-svitsjkonfigurasjonen hvis du vil spørre NVSwitches. Spør NSCQ-biblioteket etter DCGM for å nummerere NVSwitches og gi telemetri for svitsjer. NSCQ må samsvare med grenen for driverversjon (XXX) som er installert på systemet. Erstatt XXX med den nødvendige drivergrenen i kommandoene nedenfor.

sudo dnf module install nvidia-driver:XXX/fm

 

Spør operativsystemet etter driverversjonen:

nvidia-smi

Terminalutdata for

I dette eksempelet bruker vi følgende kommando siden driverversjonen vår vises som 550:

sudo dnf module install nvidia-driver:550/fm

Terminal utgang for å kjøre

Aktiver DCGM-systemd-tjenesten (ved omstart) og start nå:

sudo systemctl --now enable nvidia-dcgm

Visuell fremstilling av

Hvis du vil kontrollere installasjonen, bruker du dcgmi til å spørre systemet. Du bør se en liste over alle støttede GPUer (og eventuelle NVSwitches) som finnes i systemet: (bryteren er en liten bokstav L)
dcgmi discovery -l 

dcgmi discovery -l 

[Eksemplet nedenfor har ikke NvSwitches, men feltet fylles ut med detaljer hvis de finnes eller oppdages.]
Terminalutgang for å kjøre

 

Produkty, których dotyczy problem

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
Właściwości artykułu
Numer artykułu: 000223375
Typ artykułu: How To
Ostatnia modyfikacja: 10 kwi 2025
Wersja:  3
Znajdź odpowiedzi na swoje pytania u innych użytkowników produktów Dell
Usługi pomocy technicznej
Sprawdź, czy Twoje urządzenie jest objęte usługą pomocy technicznej.