PowerEdge: Installation von NVIDIA DataCenter GPU Manager (DCGM) und Ausführen der Diagnose

Summary: Übersicht über die Installation des DCGM-Tools (Datacenter GPU Manager) von NVIDIA unter Linux (RHEL/Ubuntu) und das Ausführen und Verständnis der Diagnoseanwendung.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

So installieren Sie DCGM unter Linux:

Dieser Hyperlink führt Sie zu einer Website außerhalb von Dell Technologies.
https://developer.nvidia.com/dcgm#DownloadsDieser Hyperlink führt Sie zu einer Website außerhalb von Dell Technologies.
https://github.com/NVIDIA/DCGMDCGM 3.3 – Benutzer- und InstallationshandbuchDieser Hyperlink führt Sie zu einer Website außerhalb von Dell Technologies.

 

Installieren des neuesten DCGM
Durch das Herunterladen und Verwenden der Software verpflichten Sie sich, die Bedingungen der NVIDIA DCGM-LizenzDieser Hyperlink führt Sie zu einer Website außerhalb von Dell Technologies. vollständig einzuhalten.
Es wird empfohlen, den neuesten R450+ NVIDIA-Treiber für Rechenzentren zu verwenden, der von der Seite Dieser Hyperlink führt Sie zu einer Website außerhalb von Dell Technologies.NVIDIA-Treiber-Downloads heruntergeladen werden kann.
Als empfohlene Methode ist die Installation von DCGM direkt aus den CUDA-Netzwerk-Repositorys. Ältere DCGM-Versionen sind ebenfalls im Repos verfügbar.

 

Merkmale von DCGM:

  • Monitoring des GPU-Verhaltens
  • GPU-Konfigurationsmanagement
  • Überwachung der GPU-Policy
  • GPU-Integrität und -Diagnose
  • GPU-Abrechnung und Prozessstatistiken
  • NVSwitch-Konfiguration und -Überwachung

 

QuickStart-Anweisungen:

Ubuntu LTS
Einrichten der CUDA-Netzwerk-Repository-Metadaten, GPG-Schlüssel Das unten gezeigte Beispiel gilt für Ubuntu 20.04 auf x86_64:

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb
$ sudo dpkg -i cuda-keyring_1.0-1_all.deb
$ sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /“

 

Installieren Sie DCGM.

$ sudo apt-get update
&& sudo apt-get install -y datacenter-gpu-manager

 

Red Hat
Einrichten der CUDA-Netzwerk-Repository-Metadaten, GPG-Schlüssel Das unten gezeigte Beispiel gilt für RHEL 8 auf x86_64:

*Pro-Tip for RHEL 9 repo simply replace the 8 below with 9 in the URL string*
$ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo

 

Installieren Sie DCGM.

$ sudo dnf clean expire-cache \
&& sudo dnf install -y datacenter-gpu-manager
Set up the DCGM service
$ sudo systemctl --now enable nvidia-dcgm.

 

So führen Sie DCGM aus:

Datacenter GPU Manager (DCGM) bietet Kunden eine schnellere Möglichkeit, GPUs innerhalb des Betriebssystems zu testen. Es gibt vier Stufen von Tests. Führen Sie den Test der Stufe 4 durch, um die detailliertesten Ergebnisse zu erhalten. Dies dauert in der Regel etwa 1 Stunde und 30 Minuten, kann jedoch je nach GPU-Typ und -Menge variieren. Mit dem Tool kann der Kunde die Tests so konfigurieren, dass sie automatisch ausgeführt werden und der Kunde benachrichtigt wird. Mehr dazu finden Sie unter diesem LinkDieser Hyperlink führt Sie zu einer Website außerhalb von Dell Technologies.. Wir empfehlen, immer die neueste Version zu verwenden, Version 3.3 ist der neueste Build.

 

 

1. Beispiel:

Befehl: dcgmi diag -r 1
Befehl: dcgmi diag -r 1 example

 

 

2. Beispiel:

Befehl: dcgmi diag -r 2
Befehl: dcgmi diag -r 2 example

3. Beispiel:

Befehl: dcgm diag -r 3
Befehl: dcgm diag -r 3 example

 

4. Beispiel:

Befehl: dcgm diag -r 4
Befehl: dcgm diag -r 4 example

 

Bei der Diagnose werden möglicherweise einige Fehler übersehen, die auf ihren Nischencharakter, ihre Workload-Spezifität oder die Notwendigkeit längerer Laufzeiten zurückzuführen sind, um sie zu erkennen.
Sollten Sie einen Fehler sehen, untersuchen Sie ihn, um die Art des Fehlers vollständig zu verstehen.
Beginnen Sie mit dem Ziehen der nvidia-bug-report.sh (nur nativ für Linux-Betriebssysteme, kein Windows) und überprüfen Sie die Ausgabedatei.

 

Beispiele für einen Speicherwarnmeldungsfehler:
Das folgende Beispiel zeigt das Aktivieren und Starten des DCGM-Integritätsmonitors mit einer nachfolgenden Überprüfung aller installierten GPUs auf dem Server. Sie können sehen, dass GPU3 eine Warnung über SBEs (Single Bit Errors) erzeugt hat und der Treiber die betroffene Speicheradresse stilllegen möchte.
Befehl: dcgmi health -s a (dadurch wird der Gesundheitsdienst gestartet und das "a" weist ihn an, alles zu überwachen)
Befehl: dcgmi health -c (Dies prüft alle erkannten GPUs und meldet diese zurück)
Beispiel für einen DCGMI-Befehl

 

An einer anderen Stelle können Sie in der Ausgabe unten sehen, welche Speicherfehler vorliegen. Bearbeitet, um nur die speicherbezogenen Elemente anzuzeigen, können wir sehen, dass die GPU auf 3.081 SBEs gestoßen ist, mit einer Gesamtanzahl von 6.161 über die gesamte Lebensdauer. Wir sehen auch, dass die GPU eine frühere SBE-Seite mit einer zusätzlichen Blacklist für ausstehende Seiten hat.
An einer anderen Stelle können Sie die Speicherfehler sehen

 

Wenn Speicherfehler auf GPUs auftreten, muss das Gerät selbst zurückgesetzt werden. Dies wird durch einen Neustart des gesamten Systems oder das Zurücksetzen der nvidia-smi GPU für das Gerät erreicht.
Nach dem Entladen des Treibers wird die markierte Blacklist-Speicheradresse zugeordnet. Wenn der Treiber neu geladen wird, erhält die GPU eine neue Adresstabelle, in der die betroffenen Adressen blockiert sind, ähnlich wie bei PPR auf Intel-CPUs).
Wenn die GPU nicht zurückgesetzt wird, führt dies häufig dazu, dass sich flüchtige und aggregierte Zähler erhöhen. Dies liegt daran, dass die GPU die betroffene Adresse weiterhin zulässt, sodass sich die Zähler jedes Mal erhöhen, wenn sie getroffen wird.

 

Wenn Sie weiterhin Fehler bei einer oder mehreren GPUs vermuten, führen Sie die NVIDIA-Felddiagnosen (629 diagnostics) aus, um einen ausführlicheren Test auf der Ziel-GPU durchzuführen.

 

**STELLEN SIE SICHER, DASS SIE DIE NEUESTEN UND KORREKTEN FELDGERÄTE FÜR DIE INSTALLIERTE GPU VERWENDEN, DIES IST VON ENTSCHEIDENDER BEDEUTUNG**.

Affected Products

C Series, Rack Servers, Tower Servers, XE Servers, PowerEdge XE8545, PowerEdge XE8640
Article Properties
Article Number: 000219485
Article Type: How To
Last Modified: 27 May 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.