PowerEdge: Rozwiązywanie problemów z ograniczaniem wydajności procesora graficznego i wykrywaniem zakłóceń termicznych
Podsumowanie: Ten artykuł zawiera instrukcje dotyczące diagnozowania i rozwiązywania problemów z ograniczaniem wydajności termicznej i wykrywaniem efektów GPU w serwerach Dell PowerEdge. Obejmuje sprawdzanie temperatury i stanu przepustnicy karty graficznej, przeglądanie dzienników systemu, poprawę chłodzenia, weryfikację instalacji sprzętu, aktualizację oprogramowania wewnętrznego systemu BIOS/iDRAC i karty graficznej oraz uruchamianie narzędzi diagnostycznych, takich jak nvidia-smi i DCGM. ...
Ten artykuł dotyczy
Ten artykuł nie dotyczy
Ten artykuł nie jest powiązany z żadnym konkretnym produktem.
Nie wszystkie wersje produktu zostały zidentyfikowane w tym artykule.
Instrukcje
Czynności przygotowawcze
- Dostęp do systemu operacyjnego z uprawnieniami administratora.
- Dostęp do kontrolera iDRAC lub systemu BIOS w celu przeglądania dzienników i ustawień systemu.
- Zainstalowany sterownik NVIDIA/CUDA i narzędzie NVIDIA-smi
- Fizyczny dostęp do serwera w celu sprawdzenia sprzętu
Wykonywanie zadań
- Sprawdzanie temperatury karty graficznej i stanu ograniczenia przepustowości
- Uruchom następujące polecenie w systemie operacyjnym, aby sprawdzić wydajność karty graficznej i stan ograniczenia:
nvidia-smi -q -d performance
- Jeśli przyczyny ograniczenia prędkości są wyświetlane jako "Nieaktywne", procesor graficzny działa normalnie.
- Uruchom następujące polecenie w systemie operacyjnym, aby sprawdzić wydajność karty graficznej i stan ograniczenia:
- Monitoruj temperaturę systemu
- Sprawdź dziennik zdarzeń systemowych (SEL) w kontrolerze iDRAC.
- Przejrzyj dziennik cyklu eksploatacji pod kątem ostrzeżeń dotyczących temperatury.
- Sprawdź temperaturę systemu przy wlocie w sekcji Przegląd temperatury.
- Popraw warunki chłodzenia
- Upewnij się, że temperatura otoczenia centrum przetwarzania danych mieści się w obsługiwanych limitach.
- Usuń wszelkie blokady przepływu powietrza w szafie serwerowej.
- Sprawdź, czy wszystkie wentylatory systemowe działają prawidłowo.
- Zainstaluj odpowiednie osłony wentylacyjne i zestawy chłodzenia karty graficznej, jeśli są dostępne.
- Weryfikacja instalacji sprzętu GPU
- Upewnij się, że karta graficzna jest prawidłowo osadzona w gnieździe PCIe.
- Sprawdź kable zasilające i złącza pod kątem prawidłowego zamocowania.
- Sprawdzenie, czy dany model GPU jest obsługiwany na platformie serwera.
- Zaktualizuj oprogramowanie wewnętrzne systemu
- Zaktualizuj system BIOS serwera do najnowszej wersji.
- Zaktualizuj oprogramowanie wewnętrzne kontrolera iDRAC do najnowszej wersji.
- Zaktualizuj sterowniki i oprogramowanie wewnętrzne karty graficznej do najnowszych wersji.
- Weryfikacja wykrywania GPU
- Użyj następującego polecenia, aby sprawdzić, czy procesor graficzny został wykryty przez system:
nvidia-smi
- Jeśli procesor graficzny nie zostanie wykryty, sprawdź ustawienia systemu BIOS i instalację sprzętu.
- Użyj następującego polecenia, aby sprawdzić, czy procesor graficzny został wykryty przez system:
- Testowanie procesora graficznego w innym gnieździe PCIe
- Wyłącz serwer i odłącz kable zasilające.
- Wyjmij kartę graficzną z bieżącego gniazda PCIe.
- Zainstaluj kartę graficzną w innym obsługiwanym gnieździe PCIe.
- Podłącz ponownie zasilanie i włącz system.
- Sprawdź wykrywanie za pomocą
nvidia-smilub spis sprzętu kontrolera iDRAC. - Jeśli procesor graficzny zostanie wykryty w nowym gnieździe, może to oznaczać problem z oryginalną konfiguracją lub sprzętem.
- Uruchamianie testu diagnostycznego procesora GPU
- Narzędzie DCGMi
- Zapoznaj się z narzędziem DCGM
- Aby uzyskać więcej instrukcji , sprawdź PowerEdge: Instalacja aplikacji NVIDIA DataCenter GPU Manager (DCGM) i uruchamianie diagnostyki
- Zapoznaj się z narzędziem DCGM
- Dzienniki NVIDIA SMI
- Uruchom
# nvidia-smi, aby uzyskać podsumowanie użycia i stanu GPU. - Uruchom
# nvidia-smi -q, aby uzyskać szczegółowe informacje o GPU. - Uruchom
# nvidia-smi nvlink -s, aby wyświetlić stan i błędy NVLink.
- Uruchom
- Wyjścia na poziomie systemu operacyjnego
- Uruchom
(zmień identyfikator odpowiednio na identyfikator urządzenia), aby wyświetlić szczegóły gniazda PCIe karty graficznej).# lspci -s 9b: 00.0 -vv
- Uruchom
- Narzędzie DCGMi
Weryfikacja
- Temperatura karty graficznej pozostaje w normalnym zakresie roboczym, a stan przepustnicy jest wyświetlany jako "Nieaktywny"
- GPU pojawia się w danych wyjściowych
nvidia-smioraz w spisie sprzętu kontrolera iDRAC. - W dzienniku zdarzeń systemowych nie ma żadnych ostrzeżeń związanych z temperaturą.
Produkty, których dotyczy problem
Rack ServersProdukty
Tower Servers, XE ServersWłaściwości artykułu
Numer artykułu: 000452203
Typ artykułu: How To
Ostatnia modyfikacja: 05 maj 2026
Wersja: 1
Znajdź odpowiedzi na swoje pytania u innych użytkowników produktów Dell
Usługi pomocy technicznej
Sprawdź, czy Twoje urządzenie jest objęte usługą pomocy technicznej.