PowerEdge: Problemen met GPU Thermal Throttling en detectie oplossen
Samenvatting: Dit artikel begeleidt gebruikers bij het diagnosticeren en oplossen van GPU thermal throttling- en detectieproblemen op Dell PowerEdge servers. Dit omvat het controleren van de GPU-temperatuur en de status van de throttle, het controleren van systeemlogboeken, het verbeteren van de koeling, het verifiëren van de hardware-installatie, het bijwerken van BIOS/iDRAC- en GPU-firmware en het uitvoeren van diagnostische hulpprogramma's zoals nvidia-smi en DCGM. ...
Dit artikel is van toepassing op
Dit artikel is niet van toepassing op
Dit artikel is niet gebonden aan een specifiek product.
Niet alle productversies worden in dit artikel vermeld.
Instructies
Voorbereiding
- Toegang tot het besturingssysteem met beheerdersrechten.
- iDRAC- of BIOS-toegang om systeemlogboeken en -instellingen weer te geven.
- NVIDIA/CUDA-driver en NVIDIA-smi-hulpprogramma geïnstalleerd
- Fysieke toegang tot de server voor hardwarecontroles
Taakuitvoering
- GPU-temperatuur en status van gashendel controleren
- Voer de volgende opdracht uit in het besturingssysteem om de GPU-prestaties en de status van de throttle te controleren:
nvidia-smi -q -d performance
- Als de redenen voor de beperking worden weergegeven als Niet actief, werkt de GPU normaal.
- Voer de volgende opdracht uit in het besturingssysteem om de GPU-prestaties en de status van de throttle te controleren:
- Systeemtemperatuur bewaken
- Controleer het systeemgebeurtenislogboek (SEL) in iDRAC.
- Bekijk het levenscycluslogboek voor temperatuurwaarschuwingen.
- Controleer de inlaattemperatuur van het systeem in het gedeelte Temperatuuroverzicht.
- Verbeter de koelomstandigheden
- Zorg ervoor dat de temperatuur van het datacenter binnen de ondersteunde limieten blijft.
- Verwijder eventuele blokkades in de luchtstroom in het rack.
- Controleer of alle systeemventilatoren goed werken.
- Installeer de juiste luchtstroomkappen en GPU-koelingskits, indien beschikbaar.
- Controleer GPU-hardware-installatie
- Controleer of de GPU correct in het PCIe-slot is geplaatst.
- Controleer of voedingskabels en connectoren goed zijn bevestigd.
- Bevestig dat het GPU-model wordt ondersteund op het serverplatform.
- Systeemfirmware bijwerken
- Werk het server-BIOS bij naar de meest recente versie.
- Werk de iDRAC-firmware bij naar de nieuwste versie.
- Werk GPU-drivers en firmware bij naar de nieuwste releases.
- GPU-detectie verifiëren
- Gebruik de volgende opdracht om te controleren of de GPU wordt gedetecteerd door het systeem:
nvidia-smi
- Als de GPU niet wordt gedetecteerd, controleert u de BIOS-instellingen en de hardware-installatie.
- Gebruik de volgende opdracht om te controleren of de GPU wordt gedetecteerd door het systeem:
- Test de GPU in een ander PCIe-slot
- Schakel de server uit en koppel de voedingskabels los.
- Verwijder de GPU uit het huidige PCIe-slot.
- Installeer de GPU in een ander ondersteund PCIe-slot.
- Sluit de stroom opnieuw aan en schakel het systeem in.
- Controleer detectie met behulp van
nvidia-smiof de iDRAC-hardware-inventaris. - Als de GPU wordt gedetecteerd in het nieuwe slot, heeft het oorspronkelijke slot mogelijk een configuratie- of hardwareprobleem.
- Diagnostische test GPU uitvoeren
- DCGMi Tool
- NVIDIA SMI-logboeken
- Voer
# nvidia-smiom een overzicht van het GPU-gebruik en de status te verkrijgen. - Voer
# nvidia-smi -qvoor gedetailleerde GPU-informatie. - Voer
# nvidia-smi nvlink -som de NVLink-status en fouten weer te geven.
- Voer
- Uitvoer op besturingssysteemniveau
- Voer
(vervang de apparaat-ID indien van toepassing) om PCIe-details voor de GPU weer te geven.)# lspci -s 9b: 00.0 -vv
- Voer
Controle
- De GPU-temperatuur blijft binnen het normale werkbereik en de status van de gashendel toont "Not Active"
- GPU wordt weergegeven in de uitvoer van
nvidia-smien in de iDRAC-hardware-inventaris. - Er zijn geen temperatuurgerelateerde waarschuwingen aanwezig in het systeemgebeurtenislogboek.
Getroffen producten
Rack ServersProducten
Tower Servers, XE ServersArtikeleigenschappen
Artikelnummer: 000452203
Artikeltype: How To
Laatst aangepast: 05 mei 2026
Versie: 1
Vind antwoorden op uw vragen via andere Dell gebruikers
Support Services
Controleer of uw apparaat wordt gedekt door Support Services.