PowerEdge: Odstraňování problémů s omezováním teploty grafické karty a detekcí
Shrnutí: Tento článek provede uživatele diagnostikou a řešením problémů s omezováním teploty grafické karty a detekcí na serverech Dell PowerEdge. Zahrnuje kontrolu teploty grafické karty a stavu omezení výkonu, kontrolu systémových protokolů, zlepšení chlazení, ověření instalace hardwaru, aktualizaci systému BIOS/iDRAC a firmwaru grafické karty a spouštění diagnostických nástrojů jako nvidia-smi a DCGM. ...
Tento článek se vztahuje na
Tento článek se nevztahuje na
Tento článek není vázán na žádný konkrétní produkt.
V tomto článku nejsou uvedeny všechny verze produktu.
Pokyny
Příprava
- Přístup k operačnímu systému s oprávněními správce.
- Přístup k řadiči iDRAC nebo systému BIOS k zobrazení systémových protokolů a nastavení.
- Nainstalovaný ovladač NVIDIA/CUDA a nástroj NVIDIA-smi
- Fyzický přístup k serveru pro kontrolu hardwaru
Provedení úlohy
- Kontrola teploty grafického procesoru a stavu omezení výkonu
- Spuštěním následujícího příkazu v operačním systému zkontrolujte výkon grafické karty a stav omezení:
nvidia-smi -q -d performance
- Pokud se důvody omezení plynu zobrazují jako "Neaktivní", GPU funguje normálně.
- Spuštěním následujícího příkazu v operačním systému zkontrolujte výkon grafické karty a stav omezení:
- Sledování teploty systému
- Zkontrolujte protokol systémových událostí (SEL) v řadiči iDRAC.
- Zkontrolujte protokol životního cyklu a vyhledejte výstrahy ohledně teploty.
- Ověřte vstupní teplotu systému v části Přehled teploty.
- Zlepšete podmínky chlazení
- Zajistěte, aby okolní teplota datového centra nedosahovala podporovaných limitů.
- Odstraňte veškeré překážky proudění vzduchu v racku.
- Ověřte, zda všechny systémové ventilátory fungují správně.
- Nainstalujte vhodné kryty proudění vzduchu a chladicí sady grafické karty, pokud jsou k dispozici.
- Ověření instalace hardwaru GPU
- Ujistěte se, že je grafická karta správně usazena ve slotu PCIe.
- Zkontrolujte bezpečné připojení napájecích kabelů a konektorů.
- Ověřte, zda je model grafické karty podporován na serverové platformě.
- Aktualizace systémového firmwaru
- Aktualizujte systém BIOS serveru na nejnovější verzi.
- Aktualizujte firmware řadiče iDRAC na nejnovější verzi.
- Aktualizujte ovladače a firmware grafické karty na nejnovější verze.
- Ověření detekce GPU
- Pomocí následujícího příkazu zkontrolujte, zda systém grafickou kartu detekuje:
nvidia-smi
- Pokud není GPU rozpoznána, zkontrolujte nastavení systému BIOS a instalaci hardwaru.
- Pomocí následujícího příkazu zkontrolujte, zda systém grafickou kartu detekuje:
- Test grafické karty v jiném slotu PCIe
- Vypněte server a odpojte napájecí kabely.
- Vyjměte grafickou kartu z aktuálního slotu PCIe.
- Nainstalujte grafickou kartu do jiného podporovaného slotu PCIe.
- Znovu připojte napájení a zapněte systém.
- Zkontrolujte detekci pomocí
nvidia-sminebo inventář hardwaru řadiče iDRAC. - Pokud je grafická karta rozpoznána v novém slotu, může mít původní slot problém s konfigurací nebo hardwarem.
- Spuštění diagnostického testu GPU
- Nástroj DCGMi
- Viz nástroj DCGM
- Další pokyny naleznete v článku PowerEdge: Instalace nástroje NVIDIA DataCenter GPU Manager (DCGM) a způsob spuštění diagnostiky
- Viz nástroj DCGM
- Protokoly NVIDIA SMI
- Spustit
# nvidia-smia získejte souhrn o využití a stavu grafické karty. - Spustit
# nvidia-smi -q, kde najdete podrobné informace o grafické kartě. - Spustit
# nvidia-smi nvlink -szobrazíte stav a chyby NVLink.
- Spustit
- Výstupy na úrovni operačního systému
- Spustit
(podle potřeby nahraďte ID zařízení) a zobrazte podrobnosti PCIe pro grafickou kartu.)# lspci -s 9b: 00.0 -vv
- Spustit
- Nástroj DCGMi
Ověření
- Teplota grafického procesoru zůstává v normálním provozním rozsahu a stav omezení plynu ukazuje "Neaktivní".
- GPU se zobrazí ve výstupu
nvidia-smia v inventáři hardwaru řadiče iDRAC. - V protokolu systémových událostí nejsou přítomna žádná varování související s teplotou.
Dotčené produkty
Rack ServersProdukty
Tower Servers, XE ServersVlastnosti článku
Číslo článku: 000452203
Typ článku: How To
Poslední úprava: 05 May 2026
Verze: 1
Najděte odpovědi na své otázky od ostatních uživatelů společnosti Dell
Služby podpory
Zkontrolujte, zda se na vaše zařízení vztahují služby podpory.