Sistemi XE: Come installare i pacchetti per la risoluzione dei problemi DCGMI. RHEL Roccioso

Podsumowanie: Procedure per l'installazione di DCGM (NVIDIA Data Center GPU Manager) in Linux per la raccolta dei registri DCGMI per la risoluzione dei problemi. RHEl/Roccioso

Ten artykuł dotyczy Ten artykuł nie dotyczy Ten artykuł nie jest powiązany z żadnym konkretnym produktem. Nie wszystkie wersje produktu zostały zidentyfikowane w tym artykule.

Instrukcje

Prerequisiti
Per eseguire DCGM, il sistema di destinazione deve includere i seguenti componenti NVIDIA, elencati in ordine di dipendenza:
- Driver
NVIDIA Datacenter supportati: sui sistemi HGX (Hyperscale Graphics Extension), sui pacchetti
Fabric Manager e NSCQ (NVSwitch Configuration and Query)- Runtime DCGM e SDK

Per le versioni Red Hat o Rocky:

NOTA: Le schermate sono solo di riferimento e i risultati osservati possono presentare alcune differenze.


Installare i metadati del repository e la chiave GPG CUDA:
[Sostituire x86_64 con "sbsa" per arm64 o sostituire con "ppc64le" per ppc64le, se necessario. Rimuovi virgolette]
Determinare la distro:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Output visivo nel terminale dei 2 comandi per l'installazione dei metadati del repository e della chiave CUDA GPG

Aggiornare i metadati del repository.

sudo dnf clean expire-cache

Il terminale in esecuzione e l'output del comando

A questo punto, installare DCGM.

sudo dnf install -y datacenter-gpu-manager

Da Terminale viene eseguito il comando

Sui sistemi HGX (A100/A800 e H100/H800), è necessario installare la configurazione dello switch NVIDIA se si desidera eseguire il polling degli NVSwitch. Eseguire una query sulla libreria NSCQ per DCGM per enumerare gli NVSwitch e fornire la telemetria per gli switch. NSCQ deve corrispondere al ramo della versione del driver (XXX) installato sul sistema. Sostituire XXX con il ramo driver necessario nei comandi riportati di seguito.

sudo dnf module install nvidia-driver:XXX/fm

 

Eseguire una query sul sistema operativo per la versione del driver:

nvidia-smi

Output terminale del comando

Per questo esempio, utilizziamo il seguente comando poiché la versione del nostro driver è 550:

sudo dnf module install nvidia-driver:550/fm

Output del terminale dell'esecuzione di

Abilitare il servizio systemd DCGM (al riavvio) e avviare ora:

sudo systemctl --now enable nvidia-dcgm

Rappresentazione visiva di

Per verificare l'installazione, utilizzare dcgmi per interrogare il sistema. Viene visualizzato un elenco di tutte le GPU supportate (e di eventuali NVSwitch) presenti nel sistema: (l'interruttore è una L minuscola)
DCGMI Discovery -l 

dcgmi discovery -l 

[L'esempio riportato di seguito non include NvSwitch, ma il campo viene popolato con i dettagli se sono presenti o rilevati.]
Uscita del terminale dell'esecuzione di

 

Produkty, których dotyczy problem

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
Właściwości artykułu
Numer artykułu: 000223375
Typ artykułu: How To
Ostatnia modyfikacja: 10 kwi 2025
Wersja:  3
Znajdź odpowiedzi na swoje pytania u innych użytkowników produktów Dell
Usługi pomocy technicznej
Sprawdź, czy Twoje urządzenie jest objęte usługą pomocy technicznej.