PowerEdge: Installation von NVIDIA DataCenter GPU Manager (DCGM) und Ausführen der Diagnose
Summary: Übersicht über die Installation des DCGM-Tools (Datacenter GPU Manager) von NVIDIA unter Linux (RHEL/Ubuntu) und das Ausführen und Verständnis der Diagnoseanwendung.
Instructions
So installieren Sie DCGM unter Linux:
https://developer.nvidia.com/dcgm#Downloads
https://github.com/NVIDIA/DCGMDCGM 3.3 – Benutzer- und Installationshandbuch
Installieren des neuesten DCGM
Durch das Herunterladen und Verwenden der Software verpflichten Sie sich, die Bedingungen der NVIDIA DCGM-Lizenz vollständig einzuhalten.
Es wird empfohlen, den neuesten R450+ NVIDIA-Treiber für Rechenzentren zu verwenden, der von der Seite NVIDIA-Treiber-Downloads heruntergeladen werden kann.
Als empfohlene Methode ist die Installation von DCGM direkt aus den CUDA-Netzwerk-Repositorys. Ältere DCGM-Versionen sind ebenfalls im Repos verfügbar.
Merkmale von DCGM:
- Monitoring des GPU-Verhaltens
- GPU-Konfigurationsmanagement
- Überwachung der GPU-Policy
- GPU-Integrität und -Diagnose
- GPU-Abrechnung und Prozessstatistiken
- NVSwitch-Konfiguration und -Überwachung
QuickStart-Anweisungen:
Ubuntu LTS
Einrichten der CUDA-Netzwerk-Repository-Metadaten, GPG-Schlüssel Das unten gezeigte Beispiel gilt für Ubuntu 20.04 auf x86_64:
$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb $ sudo dpkg -i cuda-keyring_1.0-1_all.deb $ sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /“
Installieren Sie DCGM.
$ sudo apt-get update && sudo apt-get install -y datacenter-gpu-manager
Red Hat
Einrichten der CUDA-Netzwerk-Repository-Metadaten, GPG-Schlüssel Das unten gezeigte Beispiel gilt für RHEL 8 auf x86_64:
*Pro-Tip for RHEL 9 repo simply replace the 8 below with 9 in the URL string* $ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
Installieren Sie DCGM.
$ sudo dnf clean expire-cache \ && sudo dnf install -y datacenter-gpu-manager Set up the DCGM service $ sudo systemctl --now enable nvidia-dcgm.
So führen Sie DCGM aus:
Datacenter GPU Manager (DCGM) bietet Kunden eine schnellere Möglichkeit, GPUs innerhalb des Betriebssystems zu testen. Es gibt vier Stufen von Tests. Führen Sie den Test der Stufe 4 durch, um die detailliertesten Ergebnisse zu erhalten. Dies dauert in der Regel etwa 1 Stunde und 30 Minuten, kann jedoch je nach GPU-Typ und -Menge variieren. Mit dem Tool kann der Kunde die Tests so konfigurieren, dass sie automatisch ausgeführt werden und der Kunde benachrichtigt wird. Mehr dazu finden Sie unter diesem Link. Wir empfehlen, immer die neueste Version zu verwenden, Version 3.3 ist der neueste Build.
1. Beispiel:
Befehl: dcgmi diag -r 1
2. Beispiel:
Befehl: dcgmi diag -r 2
3. Beispiel:
Befehl: dcgm diag -r 3
4. Beispiel:
Befehl: dcgm diag -r 4
Bei der Diagnose werden möglicherweise einige Fehler übersehen, die auf ihren Nischencharakter, ihre Workload-Spezifität oder die Notwendigkeit längerer Laufzeiten zurückzuführen sind, um sie zu erkennen.
Sollten Sie einen Fehler sehen, untersuchen Sie ihn, um die Art des Fehlers vollständig zu verstehen.
Beginnen Sie mit dem Ziehen der nvidia-bug-report.sh (nur nativ für Linux-Betriebssysteme, kein Windows) und überprüfen Sie die Ausgabedatei.
Beispiele für einen Speicherwarnmeldungsfehler:
Das folgende Beispiel zeigt das Aktivieren und Starten des DCGM-Integritätsmonitors mit einer nachfolgenden Überprüfung aller installierten GPUs auf dem Server. Sie können sehen, dass GPU3 eine Warnung über SBEs (Single Bit Errors) erzeugt hat und der Treiber die betroffene Speicheradresse stilllegen möchte.
Befehl: dcgmi health -s a (dadurch wird der Gesundheitsdienst gestartet und das "a" weist ihn an, alles zu überwachen)
Befehl: dcgmi health -c (Dies prüft alle erkannten GPUs und meldet diese zurück)
An einer anderen Stelle können Sie in der Ausgabe unten sehen, welche Speicherfehler vorliegen. Bearbeitet, um nur die speicherbezogenen Elemente anzuzeigen, können wir sehen, dass die GPU auf 3.081 SBEs gestoßen ist, mit einer Gesamtanzahl von 6.161 über die gesamte Lebensdauer. Wir sehen auch, dass die GPU eine frühere SBE-Seite mit einer zusätzlichen Blacklist für ausstehende Seiten hat.
Wenn Speicherfehler auf GPUs auftreten, muss das Gerät selbst zurückgesetzt werden. Dies wird durch einen Neustart des gesamten Systems oder das Zurücksetzen der nvidia-smi GPU für das Gerät erreicht.
Nach dem Entladen des Treibers wird die markierte Blacklist-Speicheradresse zugeordnet. Wenn der Treiber neu geladen wird, erhält die GPU eine neue Adresstabelle, in der die betroffenen Adressen blockiert sind, ähnlich wie bei PPR auf Intel-CPUs).
Wenn die GPU nicht zurückgesetzt wird, führt dies häufig dazu, dass sich flüchtige und aggregierte Zähler erhöhen. Dies liegt daran, dass die GPU die betroffene Adresse weiterhin zulässt, sodass sich die Zähler jedes Mal erhöhen, wenn sie getroffen wird.
Wenn Sie weiterhin Fehler bei einer oder mehreren GPUs vermuten, führen Sie die NVIDIA-Felddiagnosen (629 diagnostics) aus, um einen ausführlicheren Test auf der Ziel-GPU durchzuführen.
**STELLEN SIE SICHER, DASS SIE DIE NEUESTEN UND KORREKTEN FELDGERÄTE FÜR DIE INSTALLIERTE GPU VERWENDEN, DIES IST VON ENTSCHEIDENDER BEDEUTUNG**.