PowerEdge: Beheben von Problemen mit der thermischen GPU-Drosselung und -Erkennung

Zusammenfassung: Dieser Artikel führt NutzerInnen durch die Diagnose und Behebung von Problemen mit der GPU-Temperaturdrosselung und -erkennung auf Dell PowerEdge-Servern. Dies umfasst das Überprüfen der GPU-Temperatur und des Drosselungsstatus, die Überprüfung von Systemprotokollen, die Verbesserung der Kühlung, die Überprüfung der Hardwareinstallation, das Update von BIOS/iDRAC und GPU-Firmware sowie das Ausführen von Diagnosedienstprogrammen wie nvidia-smi und DCGM. ...

Dieser Artikel gilt für Dieser Artikel gilt nicht für Dieser Artikel ist nicht an ein bestimmtes Produkt gebunden. In diesem Artikel werden nicht alle Produktversionen aufgeführt.

Weisungen

Vorbereitung

  • Zugriff auf das Betriebssystem mit Administratorrechten.
  • iDRAC- oder BIOS-Zugriff zum Anzeigen von Systemprotokollen und Einstellungen.
  • Installierter NVIDIA/CUDA-Treiber und NVIDIA-SMI-Dienstprogramm
  • Physischer Zugriff auf den Server für Hardwareprüfungen

Aufgabenausführung

  1. Überprüfen der GPU-Temperatur und des Drosselungsstatus
    • Führen Sie den folgenden Befehl im Betriebssystem aus, um die GPU-Leistung und den Drosselungsstatus zu überprüfen:
      nvidia-smi -q -d performance 
    • Wenn die Gründe für die Drosselung als "Nicht aktiv" angezeigt werden, funktioniert die GPU normal.
  2. Überwachen der Systemtemperatur
    • Überprüfen Sie das Systemereignisprotokoll (SEL) in iDRAC.
    • Überprüfen Sie das Lebenszyklusprotokoll auf Temperaturwarnungen.
    • Überprüfen Sie die Systemeintrittstemperatur im Abschnitt Temperaturübersicht.
  3. Bessere Kühlbedingungen
    • Stellen Sie sicher, dass die Umgebungstemperatur im Rechenzentrum innerhalb der unterstützten Grenzwerte liegt.
    • Entfernen Sie alle blockierten Luftzirkulationen im Rack.
    • Stellen Sie sicher, dass alle Systemlüfter ordnungsgemäß funktionieren.
    • Installieren Sie geeignete Luftstromabdeckungen und GPU-Kühlkits, falls verfügbar.
  4. Überprüfen der GPU-Hardwareinstallation
    • Vergewissern Sie sich, dass die GPU korrekt im PCIe-Steckplatz eingesetzt ist.
    • Überprüfen Sie die Netzkabel und Anschlüsse auf sichere Befestigung.
    • Überprüfen Sie, ob das GPU-Modell auf der Serverplattform unterstützt wird.
  5. Aktualisieren der Systemfirmware
    • Aktualisieren Sie das Server-BIOS auf die neueste Version.
    • Aktualisieren Sie die iDRAC-Firmware auf die neueste Version.
    • Aktualisieren Sie die GPU-Treiber und -Firmware auf die neuesten Versionen.
  6. Überprüfen der GPU-Erkennung
    • Verwenden Sie den folgenden Befehl, um zu überprüfen, ob die GPU vom System erkannt wird:
      nvidia-smi 
    • Wenn die GPU nicht erkannt wird, überprüfen Sie die BIOS-Einstellungen und die Hardwareinstallation.
  7. GPU in einem anderen PCIe-Steckplatz testen
    • Schalten Sie den Server aus und ziehen Sie die Netzkabel ab.
    • Entfernen Sie die GPU aus dem aktuellen PCIe-Steckplatz.
    • Installieren Sie die GPU in einem anderen unterstützten PCIe-Steckplatz.
    • Schließen Sie die Stromversorgung wieder an und schalten Sie das System ein.
    • Überprüfen Sie die Erkennung mithilfe von nvidia-smi oder die iDRAC-Hardwarebestandsliste.
    • Wenn die GPU im neuen Steckplatz erkannt wird, hat der ursprüngliche Steckplatz möglicherweise ein Konfigurations- oder Hardwareproblem.
  8. GPU-Diagnosetest ausführen
    1. DCGMi-Tool
    2. NVIDIA SMI-Protokolle
      • Führen Sie# nvidia-smi , um eine Zusammenfassung der GPU-Nutzung und des GPU-Status zu erhalten.
      • Führen Sie# nvidia-smi -q , um detaillierte GPU-Informationen anzuzeigen.
      • Führen Sie# nvidia-smi nvlink -s , um den NVLink-Status und Fehler anzuzeigen.
    3. Ausgaben auf Betriebssystemebene
      • Führen Sie
        # lspci -s 9b: 00.0 -vv
        (Ersetzen Sie gegebenenfalls die Geräte-ID), um PCIe-Details für die GPU anzuzeigen.)

Überprüfung:

  • Die GPU-Temperatur bleibt innerhalb des normalen Betriebsbereichs und der Drosselungsstatus zeigt "Not Active" an.
  • GPU wird in der Ausgabe von angezeigt nvidia-smi und in der iDRAC-Hardwarebestandsliste.
  • Im Systemereignisprotokoll sind keine temperaturbezogenen Warnungen vorhanden.

Betroffene Produkte

Rack Servers

Produkte

Tower Servers, XE Servers
Artikeleigenschaften
Artikelnummer: 000452203
Artikeltyp: How To
Zuletzt geändert: 05 Mai 2026
Version:  1
Antworten auf Ihre Fragen erhalten Sie von anderen Dell NutzerInnen
Support Services
Prüfen Sie, ob Ihr Gerät durch Support Services abgedeckt ist.