PowerEdge: Installation von NVIDIA DataCenter GPU Manager (DCGM) und Ausführen der Diagnose

Summary: Übersicht über die Installation des DCGM-Tools (Datacenter GPU Manager) von NVIDIA unter Linux (RHEL/Ubuntu) und das Ausführen und Verständnis der Diagnoseanwendung.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

So installieren Sie DCGM unter Linux:

https://developer.nvidia.com/dcgm#Downloads
https://github.com/NVIDIA/DCGMDCGM 3.3 – Benutzer- und Installationshandbuch

Installieren des neuesten DCGM
Durch das Herunterladen und Verwenden der Software verpflichten Sie sich, die Bedingungen der NVIDIA DCGM-Lizenz vollständig einzuhalten.
Es wird empfohlen, den neuesten R450+ NVIDIA-Treiber für Rechenzentren zu verwenden, der von der Seite NVIDIA-Treiber-Downloads heruntergeladen werden kann.
Als empfohlene Methode ist die Installation von DCGM direkt aus den CUDA-Netzwerk-Repositorys. Ältere DCGM-Versionen sind ebenfalls im Repos verfügbar.

Merkmale von DCGM:

Monitoring des GPU-Verhaltens
GPU-Konfigurationsmanagement
Überwachung der GPU-Policy
GPU-Integrität und -Diagnose
GPU-Abrechnung und Prozessstatistiken
NVSwitch-Konfiguration und -Überwachung

QuickStart-Anweisungen:

Ubuntu LTS
Einrichten der CUDA-Netzwerk-Repository-Metadaten, GPG-Schlüssel Das unten gezeigte Beispiel gilt für Ubuntu 20.04 auf x86_64:

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb
$ sudo dpkg -i cuda-keyring_1.0-1_all.deb
$ sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /“

Installieren Sie DCGM.

$ sudo apt-get update
&& sudo apt-get install -y datacenter-gpu-manager

Red Hat
Einrichten der CUDA-Netzwerk-Repository-Metadaten, GPG-Schlüssel Das unten gezeigte Beispiel gilt für RHEL 8 auf x86_64:

*Pro-Tip for RHEL 9 repo simply replace the 8 below with 9 in the URL string*
$ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo

Installieren Sie DCGM.

$ sudo dnf clean expire-cache \
&& sudo dnf install -y datacenter-gpu-manager
Set up the DCGM service
$ sudo systemctl --now enable nvidia-dcgm.

So führen Sie DCGM aus:

Datacenter GPU Manager (DCGM) bietet Kunden eine schnellere Möglichkeit, GPUs innerhalb des Betriebssystems zu testen. Es gibt vier Stufen von Tests. Führen Sie den Test der Stufe 4 durch, um die detailliertesten Ergebnisse zu erhalten. Dies dauert in der Regel etwa 1 Stunde und 30 Minuten, kann jedoch je nach GPU-Typ und -Menge variieren. Mit dem Tool kann der Kunde die Tests so konfigurieren, dass sie automatisch ausgeführt werden und der Kunde benachrichtigt wird. Mehr dazu finden Sie unter diesem Link. Wir empfehlen, immer die neueste Version zu verwenden, Version 3.3 ist der neueste Build.

1. Beispiel:

Befehl: dcgmi diag -r 1
Befehl: dcgmi diag -r 1 example

2. Beispiel:

Befehl: dcgmi diag -r 2
Befehl: dcgmi diag -r 2 example

3. Beispiel:

Befehl: dcgm diag -r 3
Befehl: dcgm diag -r 3 example

4. Beispiel:

Befehl: dcgm diag -r 4
Befehl: dcgm diag -r 4 example

Bei der Diagnose werden möglicherweise einige Fehler übersehen, die auf ihren Nischencharakter, ihre Workload-Spezifität oder die Notwendigkeit längerer Laufzeiten zurückzuführen sind, um sie zu erkennen.
Sollten Sie einen Fehler sehen, untersuchen Sie ihn, um die Art des Fehlers vollständig zu verstehen.
Beginnen Sie mit dem Ziehen der nvidia-bug-report.sh (nur nativ für Linux-Betriebssysteme, kein Windows) und überprüfen Sie die Ausgabedatei.

Beispiele für einen Speicherwarnmeldungsfehler:
Das folgende Beispiel zeigt das Aktivieren und Starten des DCGM-Integritätsmonitors mit einer nachfolgenden Überprüfung aller installierten GPUs auf dem Server. Sie können sehen, dass GPU3 eine Warnung über SBEs (Single Bit Errors) erzeugt hat und der Treiber die betroffene Speicheradresse stilllegen möchte.
Befehl: dcgmi health -s a (dadurch wird der Gesundheitsdienst gestartet und das "a" weist ihn an, alles zu überwachen)
Befehl: dcgmi health -c (Dies prüft alle erkannten GPUs und meldet diese zurück)
Beispiel für einen DCGMI-Befehl

An einer anderen Stelle können Sie in der Ausgabe unten sehen, welche Speicherfehler vorliegen. Bearbeitet, um nur die speicherbezogenen Elemente anzuzeigen, können wir sehen, dass die GPU auf 3.081 SBEs gestoßen ist, mit einer Gesamtanzahl von 6.161 über die gesamte Lebensdauer. Wir sehen auch, dass die GPU eine frühere SBE-Seite mit einer zusätzlichen Blacklist für ausstehende Seiten hat.
An einer anderen Stelle können Sie die Speicherfehler sehen

Wenn Speicherfehler auf GPUs auftreten, muss das Gerät selbst zurückgesetzt werden. Dies wird durch einen Neustart des gesamten Systems oder das Zurücksetzen der nvidia-smi GPU für das Gerät erreicht.
Nach dem Entladen des Treibers wird die markierte Blacklist-Speicheradresse zugeordnet. Wenn der Treiber neu geladen wird, erhält die GPU eine neue Adresstabelle, in der die betroffenen Adressen blockiert sind, ähnlich wie bei PPR auf Intel-CPUs).
Wenn die GPU nicht zurückgesetzt wird, führt dies häufig dazu, dass sich flüchtige und aggregierte Zähler erhöhen. Dies liegt daran, dass die GPU die betroffene Adresse weiterhin zulässt, sodass sich die Zähler jedes Mal erhöhen, wenn sie getroffen wird.

Wenn Sie weiterhin Fehler bei einer oder mehreren GPUs vermuten, führen Sie die NVIDIA-Felddiagnosen (629 diagnostics) aus, um einen ausführlicheren Test auf der Ziel-GPU durchzuführen.

**STELLEN SIE SICHER, DASS SIE DIE NEUESTEN UND KORREKTEN FELDGERÄTE FÜR DIE INSTALLIERTE GPU VERWENDEN, DIES IST VON ENTSCHEIDENDER BEDEUTUNG**.

Affected Products

C Series, Rack Servers, Tower Servers, XE Servers, PowerEdge XE8545, PowerEdge XE8640

Article Number: 000219485

Article Type: How To

Last Modified: 27 May 2025

Version: 5

Check if your device is covered by Support Services.

PowerEdge: Installation von NVIDIA DataCenter GPU Manager (DCGM) und Ausführen der Diagnose

Summary: Übersicht über die Installation des DCGM-Tools (Datacenter GPU Manager) von NVIDIA unter Linux (RHEL/Ubuntu) und das Ausführen und Verständnis der Diagnoseanwendung.

Instructions

So installieren Sie DCGM unter Linux:

Merkmale von DCGM:

QuickStart-Anweisungen:

So führen Sie DCGM aus:

1. Beispiel:

2. Beispiel:

3. Beispiel:

4. Beispiel:

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

PowerEdge: Installation von NVIDIA DataCenter GPU Manager (DCGM) und Ausführen der Diagnose

Summary: Übersicht über die Installation des DCGM-Tools (Datacenter GPU Manager) von NVIDIA unter Linux (RHEL/Ubuntu) und das Ausführen und Verständnis der Diagnoseanwendung.

Detailed Article

Instructions

Affected Products

Instructions

So installieren Sie DCGM unter Linux:

Merkmale von DCGM:

QuickStart-Anweisungen:

So führen Sie DCGM aus:

1. Beispiel:

2. Beispiel:

3. Beispiel:

4. Beispiel:

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services