XE-Systeme: So installieren Sie Pakete für das DCGMI-Troubleshooting. RHEL Rocky
Podsumowanie: Anleitung für die DCGM-Installation (NVIDIA Data Center GPU Manager) unter Linux zum Erfassen von DCGMI-Protokollen für das Troubleshooting. RHEl/Rocky
Instrukcje
Voraussetzungen
Zum Ausführen von DCGM muss das Zielsystem die folgenden NVIDIA-Komponenten enthalten, die in der Reihenfolge der Abhängigkeiten aufgelistet sind:
- Unterstützte NVIDIA Datacenter-Treiber
– Auf HGX-Systemen (Hyperscale Graphics Extension) die Fabric Manager- und NVSwitch Configuration and Query (NSCQ)-Pakete
– DCGM Runtime und SDK
Für Red Hat- oder Rocky-Versionen:
Installieren Sie die Repository-Metadaten und den CUDA-GPG-Schlüssel:
[Ersetzen Sie x86_64 bei Bedarf durch "sbsa" für arm64 oder durch "ppc64le" für ppc64le. Anführungszeichen entfernen]
Distribution bestimmen:
distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \ --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo

Aktualisieren Sie die Repository-Metadaten.
sudo dnf clean expire-cache

Installieren Sie jetzt DCGM.
sudo dnf install -y datacenter-gpu-manager

Auf HGX-Systemen (A100/A800 und H100/H800) müssen Sie die NVIDIA-Switch-Konfiguration installieren, wenn Sie die NVSwitches abfragen möchten. Fragen Sie die NSCQ-Bibliothek für DCGM ab, um die NVSwitches aufzulisten und Telemetrie für Switches bereitzustellen. NSCQ muss mit dem auf dem System installierten Zweig der Treiberversion (XXX) übereinstimmen. Ersetzen Sie XXX durch den erforderlichen Treiberzweig in den folgenden Befehlen.
sudo dnf module install nvidia-driver:XXX/fm
Fragen Sie das Betriebssystem nach der Treiberversion ab:
nvidia-smi

Für dieses Beispiel verwenden wir den folgenden Befehl, da unsere Treiberversion als 550 angezeigt wird:
sudo dnf module install nvidia-driver:550/fm

Aktivieren Sie den DCGM-Dienst systemd (beim Neustart) und starten Sie jetzt:
sudo systemctl --now enable nvidia-dcgm

Um die Installation zu überprüfen, verwenden Sie dcgmi, um das System abzufragen. Es sollte eine Liste aller unterstützten GPUs (und aller NVSwitches) im System angezeigt werden: (der Schalter ist ein kleines L)
DCGMI Ermittlung -L
dcgmi discovery -l
[Das Beispiel unten enthält keine NVCans, aber das Feld wird mit Details gefüllt, wenn sie vorhanden sind oder erkannt werden.]