PowerEdge: Beheben von Problemen mit der thermischen GPU-Drosselung und -Erkennung
Zusammenfassung: Dieser Artikel führt NutzerInnen durch die Diagnose und Behebung von Problemen mit der GPU-Temperaturdrosselung und -erkennung auf Dell PowerEdge-Servern. Dies umfasst das Überprüfen der GPU-Temperatur und des Drosselungsstatus, die Überprüfung von Systemprotokollen, die Verbesserung der Kühlung, die Überprüfung der Hardwareinstallation, das Update von BIOS/iDRAC und GPU-Firmware sowie das Ausführen von Diagnosedienstprogrammen wie nvidia-smi und DCGM. ...
Dieser Artikel gilt für
Dieser Artikel gilt nicht für
Dieser Artikel ist nicht an ein bestimmtes Produkt gebunden.
In diesem Artikel werden nicht alle Produktversionen aufgeführt.
Weisungen
Vorbereitung
- Zugriff auf das Betriebssystem mit Administratorrechten.
- iDRAC- oder BIOS-Zugriff zum Anzeigen von Systemprotokollen und Einstellungen.
- Installierter NVIDIA/CUDA-Treiber und NVIDIA-SMI-Dienstprogramm
- Physischer Zugriff auf den Server für Hardwareprüfungen
Aufgabenausführung
- Überprüfen der GPU-Temperatur und des Drosselungsstatus
- Führen Sie den folgenden Befehl im Betriebssystem aus, um die GPU-Leistung und den Drosselungsstatus zu überprüfen:
nvidia-smi -q -d performance
- Wenn die Gründe für die Drosselung als "Nicht aktiv" angezeigt werden, funktioniert die GPU normal.
- Führen Sie den folgenden Befehl im Betriebssystem aus, um die GPU-Leistung und den Drosselungsstatus zu überprüfen:
- Überwachen der Systemtemperatur
- Überprüfen Sie das Systemereignisprotokoll (SEL) in iDRAC.
- Überprüfen Sie das Lebenszyklusprotokoll auf Temperaturwarnungen.
- Überprüfen Sie die Systemeintrittstemperatur im Abschnitt Temperaturübersicht.
- Bessere Kühlbedingungen
- Stellen Sie sicher, dass die Umgebungstemperatur im Rechenzentrum innerhalb der unterstützten Grenzwerte liegt.
- Entfernen Sie alle blockierten Luftzirkulationen im Rack.
- Stellen Sie sicher, dass alle Systemlüfter ordnungsgemäß funktionieren.
- Installieren Sie geeignete Luftstromabdeckungen und GPU-Kühlkits, falls verfügbar.
- Überprüfen der GPU-Hardwareinstallation
- Vergewissern Sie sich, dass die GPU korrekt im PCIe-Steckplatz eingesetzt ist.
- Überprüfen Sie die Netzkabel und Anschlüsse auf sichere Befestigung.
- Überprüfen Sie, ob das GPU-Modell auf der Serverplattform unterstützt wird.
- Aktualisieren der Systemfirmware
- Aktualisieren Sie das Server-BIOS auf die neueste Version.
- Aktualisieren Sie die iDRAC-Firmware auf die neueste Version.
- Aktualisieren Sie die GPU-Treiber und -Firmware auf die neuesten Versionen.
- Überprüfen der GPU-Erkennung
- Verwenden Sie den folgenden Befehl, um zu überprüfen, ob die GPU vom System erkannt wird:
nvidia-smi
- Wenn die GPU nicht erkannt wird, überprüfen Sie die BIOS-Einstellungen und die Hardwareinstallation.
- Verwenden Sie den folgenden Befehl, um zu überprüfen, ob die GPU vom System erkannt wird:
- GPU in einem anderen PCIe-Steckplatz testen
- Schalten Sie den Server aus und ziehen Sie die Netzkabel ab.
- Entfernen Sie die GPU aus dem aktuellen PCIe-Steckplatz.
- Installieren Sie die GPU in einem anderen unterstützten PCIe-Steckplatz.
- Schließen Sie die Stromversorgung wieder an und schalten Sie das System ein.
- Überprüfen Sie die Erkennung mithilfe von
nvidia-smioder die iDRAC-Hardwarebestandsliste. - Wenn die GPU im neuen Steckplatz erkannt wird, hat der ursprüngliche Steckplatz möglicherweise ein Konfigurations- oder Hardwareproblem.
- GPU-Diagnosetest ausführen
- DCGMi-Tool
- Weitere Informationen finden Sie im Dienstprogramm DCGM
- Weitere Anweisungen finden Sie unter PowerEdge: Installation von NVIDIA DataCenter GPU Manager (DCGM) und Ausführen der Diagnose
- Weitere Informationen finden Sie im Dienstprogramm DCGM
- NVIDIA SMI-Protokolle
- Führen Sie
# nvidia-smi, um eine Zusammenfassung der GPU-Nutzung und des GPU-Status zu erhalten. - Führen Sie
# nvidia-smi -q, um detaillierte GPU-Informationen anzuzeigen. - Führen Sie
# nvidia-smi nvlink -s, um den NVLink-Status und Fehler anzuzeigen.
- Führen Sie
- Ausgaben auf Betriebssystemebene
- Führen Sie
(Ersetzen Sie gegebenenfalls die Geräte-ID), um PCIe-Details für die GPU anzuzeigen.)# lspci -s 9b: 00.0 -vv
- Führen Sie
- DCGMi-Tool
Überprüfung:
- Die GPU-Temperatur bleibt innerhalb des normalen Betriebsbereichs und der Drosselungsstatus zeigt "Not Active" an.
- GPU wird in der Ausgabe von angezeigt
nvidia-smiund in der iDRAC-Hardwarebestandsliste. - Im Systemereignisprotokoll sind keine temperaturbezogenen Warnungen vorhanden.
Betroffene Produkte
Rack ServersProdukte
Tower Servers, XE ServersArtikeleigenschaften
Artikelnummer: 000452203
Artikeltyp: How To
Zuletzt geändert: 05 Mai 2026
Version: 1
Antworten auf Ihre Fragen erhalten Sie von anderen Dell NutzerInnen
Support Services
Prüfen Sie, ob Ihr Gerät durch Support Services abgedeckt ist.