PowerEdge: Rozwiązywanie problemów z ograniczaniem wydajności procesora graficznego i wykrywaniem zakłóceń termicznych

Podsumowanie: Ten artykuł zawiera instrukcje dotyczące diagnozowania i rozwiązywania problemów z ograniczaniem wydajności termicznej i wykrywaniem efektów GPU w serwerach Dell PowerEdge. Obejmuje sprawdzanie temperatury i stanu przepustnicy karty graficznej, przeglądanie dzienników systemu, poprawę chłodzenia, weryfikację instalacji sprzętu, aktualizację oprogramowania wewnętrznego systemu BIOS/iDRAC i karty graficznej oraz uruchamianie narzędzi diagnostycznych, takich jak nvidia-smi i DCGM. ...

Ten artykuł dotyczy Ten artykuł nie dotyczy Ten artykuł nie jest powiązany z żadnym konkretnym produktem. Nie wszystkie wersje produktu zostały zidentyfikowane w tym artykule.

Instrukcje

Czynności przygotowawcze

  • Dostęp do systemu operacyjnego z uprawnieniami administratora.
  • Dostęp do kontrolera iDRAC lub systemu BIOS w celu przeglądania dzienników i ustawień systemu.
  • Zainstalowany sterownik NVIDIA/CUDA i narzędzie NVIDIA-smi
  • Fizyczny dostęp do serwera w celu sprawdzenia sprzętu

Wykonywanie zadań

  1. Sprawdzanie temperatury karty graficznej i stanu ograniczenia przepustowości
    • Uruchom następujące polecenie w systemie operacyjnym, aby sprawdzić wydajność karty graficznej i stan ograniczenia:
      nvidia-smi -q -d performance 
    • Jeśli przyczyny ograniczenia prędkości są wyświetlane jako "Nieaktywne", procesor graficzny działa normalnie.
  2. Monitoruj temperaturę systemu
    • Sprawdź dziennik zdarzeń systemowych (SEL) w kontrolerze iDRAC.
    • Przejrzyj dziennik cyklu eksploatacji pod kątem ostrzeżeń dotyczących temperatury.
    • Sprawdź temperaturę systemu przy wlocie w sekcji Przegląd temperatury.
  3. Popraw warunki chłodzenia
    • Upewnij się, że temperatura otoczenia centrum przetwarzania danych mieści się w obsługiwanych limitach.
    • Usuń wszelkie blokady przepływu powietrza w szafie serwerowej.
    • Sprawdź, czy wszystkie wentylatory systemowe działają prawidłowo.
    • Zainstaluj odpowiednie osłony wentylacyjne i zestawy chłodzenia karty graficznej, jeśli są dostępne.
  4. Weryfikacja instalacji sprzętu GPU
    • Upewnij się, że karta graficzna jest prawidłowo osadzona w gnieździe PCIe.
    • Sprawdź kable zasilające i złącza pod kątem prawidłowego zamocowania.
    • Sprawdzenie, czy dany model GPU jest obsługiwany na platformie serwera.
  5. Zaktualizuj oprogramowanie wewnętrzne systemu
    • Zaktualizuj system BIOS serwera do najnowszej wersji.
    • Zaktualizuj oprogramowanie wewnętrzne kontrolera iDRAC do najnowszej wersji.
    • Zaktualizuj sterowniki i oprogramowanie wewnętrzne karty graficznej do najnowszych wersji.
  6. Weryfikacja wykrywania GPU
    • Użyj następującego polecenia, aby sprawdzić, czy procesor graficzny został wykryty przez system:
      nvidia-smi 
    • Jeśli procesor graficzny nie zostanie wykryty, sprawdź ustawienia systemu BIOS i instalację sprzętu.
  7. Testowanie procesora graficznego w innym gnieździe PCIe
    • Wyłącz serwer i odłącz kable zasilające.
    • Wyjmij kartę graficzną z bieżącego gniazda PCIe.
    • Zainstaluj kartę graficzną w innym obsługiwanym gnieździe PCIe.
    • Podłącz ponownie zasilanie i włącz system.
    • Sprawdź wykrywanie za pomocą nvidia-smi lub spis sprzętu kontrolera iDRAC.
    • Jeśli procesor graficzny zostanie wykryty w nowym gnieździe, może to oznaczać problem z oryginalną konfiguracją lub sprzętem.
  8. Uruchamianie testu diagnostycznego procesora GPU
    1. Narzędzie DCGMi
    2. Dzienniki NVIDIA SMI
      • Uruchom# nvidia-smi , aby uzyskać podsumowanie użycia i stanu GPU.
      • Uruchom# nvidia-smi -q , aby uzyskać szczegółowe informacje o GPU.
      • Uruchom# nvidia-smi nvlink -s , aby wyświetlić stan i błędy NVLink.
    3. Wyjścia na poziomie systemu operacyjnego
      • Uruchom
        # lspci -s 9b: 00.0 -vv
        (zmień identyfikator odpowiednio na identyfikator urządzenia), aby wyświetlić szczegóły gniazda PCIe karty graficznej).

Weryfikacja

  • Temperatura karty graficznej pozostaje w normalnym zakresie roboczym, a stan przepustnicy jest wyświetlany jako "Nieaktywny"
  • GPU pojawia się w danych wyjściowych nvidia-smi oraz w spisie sprzętu kontrolera iDRAC.
  • W dzienniku zdarzeń systemowych nie ma żadnych ostrzeżeń związanych z temperaturą.

Produkty, których dotyczy problem

Rack Servers

Produkty

Tower Servers, XE Servers
Właściwości artykułu
Numer artykułu: 000452203
Typ artykułu: How To
Ostatnia modyfikacja: 05 maj 2026
Wersja:  1
Znajdź odpowiedzi na swoje pytania u innych użytkowników produktów Dell
Usługi pomocy technicznej
Sprawdź, czy Twoje urządzenie jest objęte usługą pomocy technicznej.