PowerEdge: Problemen met GPU Thermal Throttling en detectie oplossen

Samenvatting: Dit artikel begeleidt gebruikers bij het diagnosticeren en oplossen van GPU thermal throttling- en detectieproblemen op Dell PowerEdge servers. Dit omvat het controleren van de GPU-temperatuur en de status van de throttle, het controleren van systeemlogboeken, het verbeteren van de koeling, het verifiëren van de hardware-installatie, het bijwerken van BIOS/iDRAC- en GPU-firmware en het uitvoeren van diagnostische hulpprogramma's zoals nvidia-smi en DCGM. ...

Dit artikel is van toepassing op Dit artikel is niet van toepassing op Dit artikel is niet gebonden aan een specifiek product. Niet alle productversies worden in dit artikel vermeld.

Instructies

Voorbereiding

  • Toegang tot het besturingssysteem met beheerdersrechten.
  • iDRAC- of BIOS-toegang om systeemlogboeken en -instellingen weer te geven.
  • NVIDIA/CUDA-driver en NVIDIA-smi-hulpprogramma geïnstalleerd
  • Fysieke toegang tot de server voor hardwarecontroles

Taakuitvoering

  1. GPU-temperatuur en status van gashendel controleren
    • Voer de volgende opdracht uit in het besturingssysteem om de GPU-prestaties en de status van de throttle te controleren:
      nvidia-smi -q -d performance 
    • Als de redenen voor de beperking worden weergegeven als Niet actief, werkt de GPU normaal.
  2. Systeemtemperatuur bewaken
    • Controleer het systeemgebeurtenislogboek (SEL) in iDRAC.
    • Bekijk het levenscycluslogboek voor temperatuurwaarschuwingen.
    • Controleer de inlaattemperatuur van het systeem in het gedeelte Temperatuuroverzicht.
  3. Verbeter de koelomstandigheden
    • Zorg ervoor dat de temperatuur van het datacenter binnen de ondersteunde limieten blijft.
    • Verwijder eventuele blokkades in de luchtstroom in het rack.
    • Controleer of alle systeemventilatoren goed werken.
    • Installeer de juiste luchtstroomkappen en GPU-koelingskits, indien beschikbaar.
  4. Controleer GPU-hardware-installatie
    • Controleer of de GPU correct in het PCIe-slot is geplaatst.
    • Controleer of voedingskabels en connectoren goed zijn bevestigd.
    • Bevestig dat het GPU-model wordt ondersteund op het serverplatform.
  5. Systeemfirmware bijwerken
    • Werk het server-BIOS bij naar de meest recente versie.
    • Werk de iDRAC-firmware bij naar de nieuwste versie.
    • Werk GPU-drivers en firmware bij naar de nieuwste releases.
  6. GPU-detectie verifiëren
    • Gebruik de volgende opdracht om te controleren of de GPU wordt gedetecteerd door het systeem:
      nvidia-smi 
    • Als de GPU niet wordt gedetecteerd, controleert u de BIOS-instellingen en de hardware-installatie.
  7. Test de GPU in een ander PCIe-slot
    • Schakel de server uit en koppel de voedingskabels los.
    • Verwijder de GPU uit het huidige PCIe-slot.
    • Installeer de GPU in een ander ondersteund PCIe-slot.
    • Sluit de stroom opnieuw aan en schakel het systeem in.
    • Controleer detectie met behulp van nvidia-smi of de iDRAC-hardware-inventaris.
    • Als de GPU wordt gedetecteerd in het nieuwe slot, heeft het oorspronkelijke slot mogelijk een configuratie- of hardwareprobleem.
  8. Diagnostische test GPU uitvoeren
    1. DCGMi Tool
    2. NVIDIA SMI-logboeken
      • Voer# nvidia-smi om een overzicht van het GPU-gebruik en de status te verkrijgen.
      • Voer# nvidia-smi -q voor gedetailleerde GPU-informatie.
      • Voer# nvidia-smi nvlink -s om de NVLink-status en fouten weer te geven.
    3. Uitvoer op besturingssysteemniveau
      • Voer
        # lspci -s 9b: 00.0 -vv
        (vervang de apparaat-ID indien van toepassing) om PCIe-details voor de GPU weer te geven.)

Controle

  • De GPU-temperatuur blijft binnen het normale werkbereik en de status van de gashendel toont "Not Active"
  • GPU wordt weergegeven in de uitvoer van nvidia-smi en in de iDRAC-hardware-inventaris.
  • Er zijn geen temperatuurgerelateerde waarschuwingen aanwezig in het systeemgebeurtenislogboek.

Getroffen producten

Rack Servers

Producten

Tower Servers, XE Servers
Artikeleigenschappen
Artikelnummer: 000452203
Artikeltype: How To
Laatst aangepast: 05 mei 2026
Versie:  1
Vind antwoorden op uw vragen via andere Dell gebruikers
Support Services
Controleer of uw apparaat wordt gedekt door Support Services.