PowerEdge: Błędy sprawdzania procesora
Summary: Ten artykuł zawiera informacje o błędach sprawdzania komputera procesora i typowych przyczynach oraz prawidłowej obsłudze w przypadku wystąpienia błędów.
Symptoms
Co to są błędy sprawdzania maszynowego procesora?
W przypadku serwerów PowerEdge i rozwiązań korzystających ze standardowego oprogramowania wewnętrznego systemu BIOS i kontrolera iDRAC testy maszyn są rejestrowane w rejestrze zdarzeń systemowych (SEL).
Wpisy te są również odzwierciedlane w dzienniku kontrolera cyklu eksploatacji (LCL) pod różnymi kodami zdarzeń Enhanced Error Message Initiative (EEMI).
| Kod zdarzenia | Komunikat o zdarzeniu |
|---|---|
CPU0011 |
Uncorrectable machine check exception detected on CPU # |
CPU0012 |
Correctable machine check exception detected on CPU # |
CPU0704 |
CPU # machine check detected |
UEFI0076 |
One or more corrected machine check errors have occurred |
UEFI0078 |
One or more machine check errors occurred in the previous boot |
Przykłady dzienników:
2022-10-22 22:12:35 506 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:34 505 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:33 504 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:31 503 CPU0704 CPU 2 machine check error detected. 2022-10-22 22:12:31 502 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2025-05-21 03:42:32 320 CPU9000 An OEM diagnostic event occurred. 2025-05-21 03:42:30 319 CPU0704 CPU 1 machine check error detected. 2025-05-21 03:42:29 318 PST0090 A problem was detected related to the previous server boot. 2025-05-21 03:42:29 317 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18 712 UEFI0078 One or more Machine Check errors occurred in the previous boot. 2021-09-02 16:02:18 711 CPU0000 Internal error has occurred check for additional logs.
Cause
Zrozumienie przyczyn błędów sprawdzania komputera procesora
Błędy sprawdzania maszynowego procesora (MCE) mają wiele możliwych przyczyn, począwszy od wyzwalaczy sprzętowych, a skończywszy na oprogramowaniu. Błędy te można przypisać różnym czynnikom, w tym:
- Oprogramowanie wewnętrzne BIOS lub mikrokod procesora
- Oprogramowanie wewnętrzne CPLD płyty głównej
- Błędy pamięci
- Błędy krytyczne magistrali PCIe
- Awaria systemu operacyjnego lub awarie oprogramowania i sterowników (BSOD, PSOD lub błędy jądra)
- Awarie procesora
Dzienniki sprzętu mogą pomóc w identyfikacji możliwych przyczyn poprzez sprawdzenie, czy błędom sprawdzania komputera procesora towarzyszą inne błędy komponentów.
Przykładowe MCE procesora wyzwalane przez błąd pamięci:

Przykładowy MCE procesora wyzwalany przez błąd magistrali krytycznej:
Przykładowy MCE procesora wyzwalany w wyniku awarii systemu operacyjnego:
Resolution
Ogólne wskazówki
Zawsze warto zadać sobie następujące pytania:
- Czy w ostatnim czasie nastąpiły zmiany w systemie, takie jak aktualizacje, zmiany w sprzęcie lub konfiguracji?
- Czy w dziennikach w pobliżu występują inne błędy, które mogą być bardziej pouczające niż sama kontrola urządzenia?
- Jak często odbywa się kontrola maszyny? Czy był to jednorazowy przypadek? Czy można go łatwo odtworzyć?
- Czy w grę wchodzą czynniki środowiskowe, takie jak określone obciążenia robocze lub scenariusze zasilania i temperatury?
Oprogramowanie wewnętrzne i sterowniki
Nieaktualne lub niekompatybilne oprogramowanie układowe i sterowniki należą do najczęstszych winowajców kontroli urządzeń, ponieważ współpracują ze sobą w celu implementacji i kontrolowania zachowania urządzenia. Dlatego ważne jest, aby przejrzeć wersje używane w ramach oceny każdego dochodzenia w sprawie kontroli maszyn.
Kluczowe znaczenie mają aktualizacje oprogramowania wewnętrznego:
- Większość wydań systemu BIOS zawiera aktualizacje dostarczone przez odpowiedniego dostawcę procesora, a wiele z nich zawiera jawne poprawki dotyczące kontroli komputera.
- Aktualizacje UEFI dla serwerów obejmują mikrokod, kod referencyjny i inne aktualizacje modułów, które sterują funkcjonowaniem, w tym między innymi wszystkimi funkcjami niezawodności, dostępności i możliwości serwisowania (RAS).
- Jednocześnie nie należy przeoczyć innego oprogramowania wewnętrznego w systemie.
- Winowajcą może być praktycznie każde urządzenie w systemie, w tym w rzadkich przypadkach kontroler iDRAC.
Identyfikowanie i rozwiązywanie problemów z błędami sprawdzania komputera procesora
Aby zidentyfikować błędy sprawdzania komputera procesora, zacznij od sprawdzenia dzienników sprzętu Lifecycle (LC) lub System Event Log (SEL) bezpośrednio z kontrolera iDRAC albo zbierz zbiór TSR lub SupportAssist w celu przejrzenia dzienników.
- PowerEdge: Eksportowanie kolekcji SupportAssist za pomocą kontrolera iDRAC
- PowerEdge: Wyświetlanie i czyszczenie dziennika zdarzeń systemu
- Podręcznik użytkownika kontrolera iDRAC9 — wyświetlanie dziennika cyklu eksploatacji z poziomu interfejsu internetowego
Sprawdź, czy błędy MCE procesora są poprzedzone innymi błędami i czy dotyczą rozwiązywania problemów z tymi elementami.
Czynności rozwiązywania problemów
- Zaktualizuj całe dostępne oprogramowanie wewnętrzne i monitoruj wyniki pod kątem ewentualnych zmian w zachowaniu błędów.
- Jeśli błędy wyświetlają tylko jeden procesor, zamień procesory, aby określić, czy błąd przenosi się do drugiego gniazda.
- Jeśli MCE jest wyzwalane w wyniku błędu innego elementu, skoncentruj się na rozwiązywaniu problemów z tym elementem.
- Sprawdź, jakie komponenty są kontrolowane przez procesor za pomocą MCE.
- Na przykład: Jeśli jest to MCE procesora CPU1, sprawdź wszystkie karty riser i gniazda PCIe kontrolowane przez procesor CPU1 oraz urządzenia zainstalowane w tych gniazdach, a także pamięć po stronie procesora CPU1. Sprawdź wszystkie moduły A-DIMM pod kątem błędów.
- Aby sprawdzić, który procesor steruje każdą kartą riser lub gniazdem, zapoznaj się z Podręcznikiem instalacji i serwisowania serwerów oraz przejdź do sekcji Instalowanie i wymontowywanie komponentów> systemu , Kart rozszerzeń i wsporników> kart rozszerzeń : Wskazówki dotyczące instalowania kart rozszerzeń.
- Aby uzyskać więcej informacji na temat określania, który procesor steruje riserami lub gniazdami, zobacz: PowerEdge: Rozwiązywanie problemów z wykrywaniem urządzeń PCIe
- Aby wykluczyć wyzwalacze MCE związane z systemem operacyjnym, przetestuj poza systemem operacyjnym, aby sprawdzić, czy błędy są nadal wyzwalane poza systemem operacyjnym.
- Uruchom diagnostykę ePSA, aby sprawdzić, czy podczas testów wystąpiły błędy.
- Uruchom nośnik obrazu Support Live Image (SLI), aby sprawdzić, czy w danym środowisku systemu operacyjnego wystąpiły błędy.
Uruchamianie testów obciążenia w Support Live Image
Czas trwania: 00:02:38 (gg:mm:ss)
Jeśli to możliwe, ustawienia języka napisów można wybrać za pomocą ikony CC w tym odtwarzaczu wideo.