PowerEdge: Błędy sprawdzania procesora

Summary: Ten artykuł zawiera informacje o błędach sprawdzania komputera procesora i typowych przyczynach oraz prawidłowej obsłudze w przypadku wystąpienia błędów.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Co to są błędy sprawdzania maszynowego procesora?

W przypadku serwerów PowerEdge i rozwiązań korzystających ze standardowego oprogramowania wewnętrznego systemu BIOS i kontrolera iDRAC testy maszyn są rejestrowane w rejestrze zdarzeń systemowych (SEL).
Wpisy te są również odzwierciedlane w dzienniku kontrolera cyklu eksploatacji (LCL) pod różnymi kodami zdarzeń Enhanced Error Message Initiative (EEMI).

Kod zdarzenia Komunikat o zdarzeniu
CPU0011 Uncorrectable machine check exception detected on CPU #
CPU0012 Correctable machine check exception detected on CPU #
CPU0704 CPU # machine check detected
UEFI0076 One or more corrected machine check errors have occurred
UEFI0078 One or more machine check errors occurred in the previous boot

 

 

 

Przykłady dzienników:

2022-10-22 22:12:35    506    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:34    505    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:33    504    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:31    503    CPU0704    CPU 2 machine check error detected.
2022-10-22 22:12:31    502    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2025-05-21 03:42:32    320    CPU9000    An OEM diagnostic event occurred.
2025-05-21 03:42:30    319    CPU0704    CPU 1 machine check error detected.
2025-05-21 03:42:29    318    PST0090    A problem was detected related to the previous server boot.
2025-05-21 03:42:29    317    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2021-09-02 16:02:18    712    UEFI0078   One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18    711    CPU0000    Internal error has occurred check for additional logs.

 


Cause

 

Zrozumienie przyczyn błędów sprawdzania komputera procesora

Błędy sprawdzania maszynowego procesora (MCE) mają wiele możliwych przyczyn, począwszy od wyzwalaczy sprzętowych, a skończywszy na oprogramowaniu. Błędy te można przypisać różnym czynnikom, w tym:

  • Oprogramowanie wewnętrzne BIOS lub mikrokod procesora
  • Oprogramowanie wewnętrzne CPLD płyty głównej
  • Błędy pamięci
  • Błędy krytyczne magistrali PCIe
  • Awaria systemu operacyjnego lub awarie oprogramowania i sterowników (BSOD, PSOD lub błędy jądra)
  • Awarie procesora

Dzienniki sprzętu mogą pomóc w identyfikacji możliwych przyczyn poprzez sprawdzenie, czy błędom sprawdzania komputera procesora towarzyszą inne błędy komponentów.

 

Przykładowe MCE procesora wyzwalane przez błąd pamięci:
Błąd MCE procesora spowodowany błędem DIMM

 

MCE procesora z błędem DIMM na nowszych serwerach

 

Przykładowy MCE procesora wyzwalany przez błąd magistrali krytycznej:
MCE procesora z krytycznym błędem BUS

 

Przykładowy MCE procesora wyzwalany w wyniku awarii systemu operacyjnego:
Błąd MCE procesora z awarią systemu operacyjnego

 


Resolution

 

Ogólne wskazówki

Zawsze warto zadać sobie następujące pytania:

  • Czy w ostatnim czasie nastąpiły zmiany w systemie, takie jak aktualizacje, zmiany w sprzęcie lub konfiguracji?
  • Czy w dziennikach w pobliżu występują inne błędy, które mogą być bardziej pouczające niż sama kontrola urządzenia?
  • Jak często odbywa się kontrola maszyny? Czy był to jednorazowy przypadek? Czy można go łatwo odtworzyć?
  • Czy w grę wchodzą czynniki środowiskowe, takie jak określone obciążenia robocze lub scenariusze zasilania i temperatury?

 

Oprogramowanie wewnętrzne i sterowniki

Nieaktualne lub niekompatybilne oprogramowanie układowe i sterowniki należą do najczęstszych winowajców kontroli urządzeń, ponieważ współpracują ze sobą w celu implementacji i kontrolowania zachowania urządzenia. Dlatego ważne jest, aby przejrzeć wersje używane w ramach oceny każdego dochodzenia w sprawie kontroli maszyn.

 

Kluczowe znaczenie mają aktualizacje oprogramowania wewnętrznego:

  • Większość wydań systemu BIOS zawiera aktualizacje dostarczone przez odpowiedniego dostawcę procesora, a wiele z nich zawiera jawne poprawki dotyczące kontroli komputera.
  • Aktualizacje UEFI dla serwerów obejmują mikrokod, kod referencyjny i inne aktualizacje modułów, które sterują funkcjonowaniem, w tym między innymi wszystkimi funkcjami niezawodności, dostępności i możliwości serwisowania (RAS).
  • Jednocześnie nie należy przeoczyć innego oprogramowania wewnętrznego w systemie.
  • Winowajcą może być praktycznie każde urządzenie w systemie, w tym w rzadkich przypadkach kontroler iDRAC. 

 

Identyfikowanie i rozwiązywanie problemów z błędami sprawdzania komputera procesora

Aby zidentyfikować błędy sprawdzania komputera procesora, zacznij od sprawdzenia dzienników sprzętu Lifecycle (LC) lub System Event Log (SEL) bezpośrednio z kontrolera iDRAC albo zbierz zbiór TSR lub SupportAssist w celu przejrzenia dzienników.

Sprawdź, czy błędy MCE procesora są poprzedzone innymi błędami i czy dotyczą rozwiązywania problemów z tymi elementami.

 

Czynności rozwiązywania problemów

  • Zaktualizuj całe dostępne oprogramowanie wewnętrzne i monitoruj wyniki pod kątem ewentualnych zmian w zachowaniu błędów.
  • Jeśli błędy wyświetlają tylko jeden procesor, zamień procesory, aby określić, czy błąd przenosi się do drugiego gniazda.
  • Jeśli MCE jest wyzwalane w wyniku błędu innego elementu, skoncentruj się na rozwiązywaniu problemów z tym elementem.
    • Sprawdź, jakie komponenty są kontrolowane przez procesor za pomocą MCE.
    • Na przykład: Jeśli jest to MCE procesora CPU1, sprawdź wszystkie karty riser i gniazda PCIe kontrolowane przez procesor CPU1 oraz urządzenia zainstalowane w tych gniazdach, a także pamięć po stronie procesora CPU1. Sprawdź wszystkie moduły A-DIMM pod kątem błędów.
    • Aby sprawdzić, który procesor steruje każdą kartą riser lub gniazdem, zapoznaj się z Podręcznikiem instalacji i serwisowania serwerów oraz przejdź do sekcji Instalowanie i wymontowywanie komponentów> systemu , Kart rozszerzeń i wsporników> kart rozszerzeń : Wskazówki dotyczące instalowania kart rozszerzeń.
    • Aby uzyskać więcej informacji na temat określania, który procesor steruje riserami lub gniazdami, zobacz: PowerEdge: Rozwiązywanie problemów z wykrywaniem urządzeń PCIe
  • Aby wykluczyć wyzwalacze MCE związane z systemem operacyjnym, przetestuj poza systemem operacyjnym, aby sprawdzić, czy błędy są nadal wyzwalane poza systemem operacyjnym.

    Uruchamianie testów obciążenia w Support Live Image

    Czas trwania: 00:02:38 (gg:mm:ss)
    Jeśli to możliwe, ustawienia języka napisów można wybrać za pomocą ikony CC w tym odtwarzaczu wideo.

 

Affected Products

PowerFlex rack, C Series, HS Series, Modular Infrastructure, Rack Servers, Tower Servers, XE Servers, XR Servers, OEM Server Solutions, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R860, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Article Properties
Article Number: 000349127
Article Type: Solution
Last Modified: 25 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.