PowerEdge: Odstraňování problémů s omezováním teploty grafické karty a detekcí

Shrnutí: Tento článek provede uživatele diagnostikou a řešením problémů s omezováním teploty grafické karty a detekcí na serverech Dell PowerEdge. Zahrnuje kontrolu teploty grafické karty a stavu omezení výkonu, kontrolu systémových protokolů, zlepšení chlazení, ověření instalace hardwaru, aktualizaci systému BIOS/iDRAC a firmwaru grafické karty a spouštění diagnostických nástrojů jako nvidia-smi a DCGM. ...

Tento článek se vztahuje na Tento článek se nevztahuje na Tento článek není vázán na žádný konkrétní produkt. V tomto článku nejsou uvedeny všechny verze produktu.

Pokyny

Příprava

  • Přístup k operačnímu systému s oprávněními správce.
  • Přístup k řadiči iDRAC nebo systému BIOS k zobrazení systémových protokolů a nastavení.
  • Nainstalovaný ovladač NVIDIA/CUDA a nástroj NVIDIA-smi
  • Fyzický přístup k serveru pro kontrolu hardwaru

Provedení úlohy

  1. Kontrola teploty grafického procesoru a stavu omezení výkonu
    • Spuštěním následujícího příkazu v operačním systému zkontrolujte výkon grafické karty a stav omezení:
      nvidia-smi -q -d performance 
    • Pokud se důvody omezení plynu zobrazují jako "Neaktivní", GPU funguje normálně.
  2. Sledování teploty systému
    • Zkontrolujte protokol systémových událostí (SEL) v řadiči iDRAC.
    • Zkontrolujte protokol životního cyklu a vyhledejte výstrahy ohledně teploty.
    • Ověřte vstupní teplotu systému v části Přehled teploty.
  3. Zlepšete podmínky chlazení
    • Zajistěte, aby okolní teplota datového centra nedosahovala podporovaných limitů.
    • Odstraňte veškeré překážky proudění vzduchu v racku.
    • Ověřte, zda všechny systémové ventilátory fungují správně.
    • Nainstalujte vhodné kryty proudění vzduchu a chladicí sady grafické karty, pokud jsou k dispozici.
  4. Ověření instalace hardwaru GPU
    • Ujistěte se, že je grafická karta správně usazena ve slotu PCIe.
    • Zkontrolujte bezpečné připojení napájecích kabelů a konektorů.
    • Ověřte, zda je model grafické karty podporován na serverové platformě.
  5. Aktualizace systémového firmwaru
    • Aktualizujte systém BIOS serveru na nejnovější verzi.
    • Aktualizujte firmware řadiče iDRAC na nejnovější verzi.
    • Aktualizujte ovladače a firmware grafické karty na nejnovější verze.
  6. Ověření detekce GPU
    • Pomocí následujícího příkazu zkontrolujte, zda systém grafickou kartu detekuje:
      nvidia-smi 
    • Pokud není GPU rozpoznána, zkontrolujte nastavení systému BIOS a instalaci hardwaru.
  7. Test grafické karty v jiném slotu PCIe
    • Vypněte server a odpojte napájecí kabely.
    • Vyjměte grafickou kartu z aktuálního slotu PCIe.
    • Nainstalujte grafickou kartu do jiného podporovaného slotu PCIe.
    • Znovu připojte napájení a zapněte systém.
    • Zkontrolujte detekci pomocí nvidia-smi nebo inventář hardwaru řadiče iDRAC.
    • Pokud je grafická karta rozpoznána v novém slotu, může mít původní slot problém s konfigurací nebo hardwarem.
  8. Spuštění diagnostického testu GPU
    1. Nástroj DCGMi
    2. Protokoly NVIDIA SMI
      • Spustit# nvidia-smi a získejte souhrn o využití a stavu grafické karty.
      • Spustit# nvidia-smi -q , kde najdete podrobné informace o grafické kartě.
      • Spustit# nvidia-smi nvlink -s zobrazíte stav a chyby NVLink.
    3. Výstupy na úrovni operačního systému
      • Spustit
        # lspci -s 9b: 00.0 -vv
        (podle potřeby nahraďte ID zařízení) a zobrazte podrobnosti PCIe pro grafickou kartu.)

Ověření

  • Teplota grafického procesoru zůstává v normálním provozním rozsahu a stav omezení plynu ukazuje "Neaktivní".
  • GPU se zobrazí ve výstupu nvidia-smi a v inventáři hardwaru řadiče iDRAC.
  • V protokolu systémových událostí nejsou přítomna žádná varování související s teplotou.

Dotčené produkty

Rack Servers

Produkty

Tower Servers, XE Servers
Vlastnosti článku
Číslo článku: 000452203
Typ článku: How To
Poslední úprava: 05 kvě 2026
Verze:  1
Najděte odpovědi na své otázky od ostatních uživatelů společnosti Dell
Služby podpory
Zkontrolujte, zda se na vaše zařízení vztahují služby podpory.