XE-Systeme: So installieren Sie Pakete für das DCGMI-Troubleshooting. RHEL Rocky

摘要: Anleitung für die DCGM-Installation (NVIDIA Data Center GPU Manager) unter Linux zum Erfassen von DCGMI-Protokollen für das Troubleshooting. RHEl/Rocky

本文章適用於 本文章不適用於 本文無關於任何特定產品。 本文未識別所有產品版本。

說明

Voraussetzungen
Zum Ausführen von DCGM muss das Zielsystem die folgenden NVIDIA-Komponenten enthalten, die in der Reihenfolge der Abhängigkeiten aufgelistet sind:
- Unterstützte NVIDIA Datacenter-Treiber
– Auf HGX-Systemen (Hyperscale Graphics Extension) die Fabric Manager- und NVSwitch Configuration and Query (NSCQ)-Pakete
– DCGM Runtime und SDK

Für Red Hat- oder Rocky-Versionen:

HINWEIS: Screenshots dienen nur als Referenz und die beobachteten Ergebnisse können einige Unterschiede aufweisen.


Installieren Sie die Repository-Metadaten und den CUDA-GPG-Schlüssel:
[Ersetzen Sie x86_64 bei Bedarf durch "sbsa" für arm64 oder durch "ppc64le" für ppc64le. Anführungszeichen entfernen]
Distribution bestimmen:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Visuelle Ausgabe der 2 Befehle für die Installation von Repository-Metadaten und des CUDA-GPG-Schlüssels im Terminal

Aktualisieren Sie die Repository-Metadaten.

sudo dnf clean expire-cache

Laufendes Terminal und Ausgabe des Befehls

Installieren Sie jetzt DCGM.

sudo dnf install -y datacenter-gpu-manager

Terminal, auf dem der Befehl

Auf HGX-Systemen (A100/A800 und H100/H800) müssen Sie die NVIDIA-Switch-Konfiguration installieren, wenn Sie die NVSwitches abfragen möchten. Fragen Sie die NSCQ-Bibliothek für DCGM ab, um die NVSwitches aufzulisten und Telemetrie für Switches bereitzustellen. NSCQ muss mit dem auf dem System installierten Zweig der Treiberversion (XXX) übereinstimmen. Ersetzen Sie XXX durch den erforderlichen Treiberzweig in den folgenden Befehlen.

sudo dnf module install nvidia-driver:XXX/fm

 

Fragen Sie das Betriebssystem nach der Treiberversion ab:

nvidia-smi

Terminalausgabe des Befehls

Für dieses Beispiel verwenden wir den folgenden Befehl, da unsere Treiberversion als 550 angezeigt wird:

sudo dnf module install nvidia-driver:550/fm

Terminalausgabe der Ausführung von

Aktivieren Sie den DCGM-Dienst systemd (beim Neustart) und starten Sie jetzt:

sudo systemctl --now enable nvidia-dcgm

Visuelle Darstellung von

Um die Installation zu überprüfen, verwenden Sie dcgmi, um das System abzufragen. Es sollte eine Liste aller unterstützten GPUs (und aller NVSwitches) im System angezeigt werden: (der Schalter ist ein kleines L)
DCGMI Ermittlung -L 

dcgmi discovery -l 

[Das Beispiel unten enthält keine NVCans, aber das Feld wird mit Details gefüllt, wenn sie vorhanden sind oder erkannt werden.]
Terminalausgabe der Ausführung von

 

受影響的產品

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
文章屬性
文章編號: 000223375
文章類型: How To
上次修改時間: 10 4月 2025
版本:  3
向其他 Dell 使用者尋求您問題的答案
支援服務
檢查您的裝置是否在支援服務的涵蓋範圍內。