XE-Systeme: So installieren Sie Pakete für das DCGMI-Troubleshooting. RHEL Rocky

Podsumowanie: Anleitung für die DCGM-Installation (NVIDIA Data Center GPU Manager) unter Linux zum Erfassen von DCGMI-Protokollen für das Troubleshooting. RHEl/Rocky

Ten artykuł dotyczy Ten artykuł nie dotyczy Ten artykuł nie jest powiązany z żadnym konkretnym produktem. Nie wszystkie wersje produktu zostały zidentyfikowane w tym artykule.

Instrukcje

Voraussetzungen
Zum Ausführen von DCGM muss das Zielsystem die folgenden NVIDIA-Komponenten enthalten, die in der Reihenfolge der Abhängigkeiten aufgelistet sind:
- Unterstützte NVIDIA Datacenter-Treiber
– Auf HGX-Systemen (Hyperscale Graphics Extension) die Fabric Manager- und NVSwitch Configuration and Query (NSCQ)-Pakete
– DCGM Runtime und SDK

Für Red Hat- oder Rocky-Versionen:

HINWEIS: Screenshots dienen nur als Referenz und die beobachteten Ergebnisse können einige Unterschiede aufweisen.


Installieren Sie die Repository-Metadaten und den CUDA-GPG-Schlüssel:
[Ersetzen Sie x86_64 bei Bedarf durch "sbsa" für arm64 oder durch "ppc64le" für ppc64le. Anführungszeichen entfernen]
Distribution bestimmen:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Visuelle Ausgabe der 2 Befehle für die Installation von Repository-Metadaten und des CUDA-GPG-Schlüssels im Terminal

Aktualisieren Sie die Repository-Metadaten.

sudo dnf clean expire-cache

Laufendes Terminal und Ausgabe des Befehls

Installieren Sie jetzt DCGM.

sudo dnf install -y datacenter-gpu-manager

Terminal, auf dem der Befehl

Auf HGX-Systemen (A100/A800 und H100/H800) müssen Sie die NVIDIA-Switch-Konfiguration installieren, wenn Sie die NVSwitches abfragen möchten. Fragen Sie die NSCQ-Bibliothek für DCGM ab, um die NVSwitches aufzulisten und Telemetrie für Switches bereitzustellen. NSCQ muss mit dem auf dem System installierten Zweig der Treiberversion (XXX) übereinstimmen. Ersetzen Sie XXX durch den erforderlichen Treiberzweig in den folgenden Befehlen.

sudo dnf module install nvidia-driver:XXX/fm

 

Fragen Sie das Betriebssystem nach der Treiberversion ab:

nvidia-smi

Terminalausgabe des Befehls

Für dieses Beispiel verwenden wir den folgenden Befehl, da unsere Treiberversion als 550 angezeigt wird:

sudo dnf module install nvidia-driver:550/fm

Terminalausgabe der Ausführung von

Aktivieren Sie den DCGM-Dienst systemd (beim Neustart) und starten Sie jetzt:

sudo systemctl --now enable nvidia-dcgm

Visuelle Darstellung von

Um die Installation zu überprüfen, verwenden Sie dcgmi, um das System abzufragen. Es sollte eine Liste aller unterstützten GPUs (und aller NVSwitches) im System angezeigt werden: (der Schalter ist ein kleines L)
DCGMI Ermittlung -L 

dcgmi discovery -l 

[Das Beispiel unten enthält keine NVCans, aber das Feld wird mit Details gefüllt, wenn sie vorhanden sind oder erkannt werden.]
Terminalausgabe der Ausführung von

 

Produkty, których dotyczy problem

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
Właściwości artykułu
Numer artykułu: 000223375
Typ artykułu: How To
Ostatnia modyfikacja: 10 kwi 2025
Wersja:  3
Znajdź odpowiedzi na swoje pytania u innych użytkowników produktów Dell
Usługi pomocy technicznej
Sprawdź, czy Twoje urządzenie jest objęte usługą pomocy technicznej.