PowerEdge: Błędy sprawdzania procesora

Summary: Ten artykuł zawiera informacje o błędach sprawdzania komputera procesora i typowych przyczynach oraz prawidłowej obsłudze w przypadku wystąpienia błędów.

Ez a cikk a következő(k)re vonatkozik: Ez a cikk nem vonatkozik a következő(k)re: Ez a cikk nem kapcsolódik egyetlen konkrét termékhez sem. Ez a cikk nem azonosítja az összes termékverziót.

Symptoms

Co to są błędy sprawdzania maszynowego procesora?

W przypadku serwerów PowerEdge i rozwiązań korzystających ze standardowego oprogramowania wewnętrznego systemu BIOS i kontrolera iDRAC testy maszyn są rejestrowane w rejestrze zdarzeń systemowych (SEL).
Wpisy te są również odzwierciedlane w dzienniku kontrolera cyklu eksploatacji (LCL) pod różnymi kodami zdarzeń Enhanced Error Message Initiative (EEMI).

Kod zdarzenia Komunikat o zdarzeniu
CPU0011 Uncorrectable machine check exception detected on CPU #
CPU0012 Correctable machine check exception detected on CPU #
CPU0704 CPU # machine check detected
UEFI0076 One or more corrected machine check errors have occurred
UEFI0078 One or more machine check errors occurred in the previous boot

 

 

 

Przykłady dzienników:

2022-10-22 22:12:35    506    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:34    505    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:33    504    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:31    503    CPU0704    CPU 2 machine check error detected.
2022-10-22 22:12:31    502    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2025-05-21 03:42:32    320    CPU9000    An OEM diagnostic event occurred.
2025-05-21 03:42:30    319    CPU0704    CPU 1 machine check error detected.
2025-05-21 03:42:29    318    PST0090    A problem was detected related to the previous server boot.
2025-05-21 03:42:29    317    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2021-09-02 16:02:18    712    UEFI0078   One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18    711    CPU0000    Internal error has occurred check for additional logs.

 


Cause

 

Zrozumienie przyczyn błędów sprawdzania komputera procesora

Błędy sprawdzania maszynowego procesora (MCE) mają wiele możliwych przyczyn, począwszy od wyzwalaczy sprzętowych, a skończywszy na oprogramowaniu. Błędy te można przypisać różnym czynnikom, w tym:

  • Oprogramowanie wewnętrzne BIOS lub mikrokod procesora
  • Oprogramowanie wewnętrzne CPLD płyty głównej
  • Błędy pamięci
  • Błędy krytyczne magistrali PCIe
  • Awaria systemu operacyjnego lub awarie oprogramowania i sterowników (BSOD, PSOD lub błędy jądra)
  • Awarie procesora

Dzienniki sprzętu mogą pomóc w identyfikacji możliwych przyczyn poprzez sprawdzenie, czy błędom sprawdzania komputera procesora towarzyszą inne błędy komponentów.

 

Przykładowe MCE procesora wyzwalane przez błąd pamięci:
Błąd MCE procesora spowodowany błędem DIMM

 

MCE procesora z błędem DIMM na nowszych serwerach

 

Przykładowy MCE procesora wyzwalany przez błąd magistrali krytycznej:
MCE procesora z krytycznym błędem BUS

 

Przykładowy MCE procesora wyzwalany w wyniku awarii systemu operacyjnego:
Błąd MCE procesora z awarią systemu operacyjnego

 


Resolution

 

Ogólne wskazówki

Zawsze warto zadać sobie następujące pytania:

  • Czy w ostatnim czasie nastąpiły zmiany w systemie, takie jak aktualizacje, zmiany w sprzęcie lub konfiguracji?
  • Czy w dziennikach w pobliżu występują inne błędy, które mogą być bardziej pouczające niż sama kontrola urządzenia?
  • Jak często odbywa się kontrola maszyny? Czy był to jednorazowy przypadek? Czy można go łatwo odtworzyć?
  • Czy w grę wchodzą czynniki środowiskowe, takie jak określone obciążenia robocze lub scenariusze zasilania i temperatury?

 

Oprogramowanie wewnętrzne i sterowniki

Nieaktualne lub niekompatybilne oprogramowanie układowe i sterowniki należą do najczęstszych winowajców kontroli urządzeń, ponieważ współpracują ze sobą w celu implementacji i kontrolowania zachowania urządzenia. Dlatego ważne jest, aby przejrzeć wersje używane w ramach oceny każdego dochodzenia w sprawie kontroli maszyn.

 

Kluczowe znaczenie mają aktualizacje oprogramowania wewnętrznego:

  • Większość wydań systemu BIOS zawiera aktualizacje dostarczone przez odpowiedniego dostawcę procesora, a wiele z nich zawiera jawne poprawki dotyczące kontroli komputera.
  • Aktualizacje UEFI dla serwerów obejmują mikrokod, kod referencyjny i inne aktualizacje modułów, które sterują funkcjonowaniem, w tym między innymi wszystkimi funkcjami niezawodności, dostępności i możliwości serwisowania (RAS).
  • Jednocześnie nie należy przeoczyć innego oprogramowania wewnętrznego w systemie.
  • Winowajcą może być praktycznie każde urządzenie w systemie, w tym w rzadkich przypadkach kontroler iDRAC. 

 

Identyfikowanie i rozwiązywanie problemów z błędami sprawdzania komputera procesora

Aby zidentyfikować błędy sprawdzania komputera procesora, zacznij od sprawdzenia dzienników sprzętu Lifecycle (LC) lub System Event Log (SEL) bezpośrednio z kontrolera iDRAC albo zbierz zbiór TSR lub SupportAssist w celu przejrzenia dzienników.

Sprawdź, czy błędy MCE procesora są poprzedzone innymi błędami i czy dotyczą rozwiązywania problemów z tymi elementami.

 

Czynności rozwiązywania problemów

  • Zaktualizuj całe dostępne oprogramowanie wewnętrzne i monitoruj wyniki pod kątem ewentualnych zmian w zachowaniu błędów.
  • Jeśli błędy wyświetlają tylko jeden procesor, zamień procesory, aby określić, czy błąd przenosi się do drugiego gniazda.
  • Jeśli MCE jest wyzwalane w wyniku błędu innego elementu, skoncentruj się na rozwiązywaniu problemów z tym elementem.
    • Sprawdź, jakie komponenty są kontrolowane przez procesor za pomocą MCE.
    • Na przykład: Jeśli jest to MCE procesora CPU1, sprawdź wszystkie karty riser i gniazda PCIe kontrolowane przez procesor CPU1 oraz urządzenia zainstalowane w tych gniazdach, a także pamięć po stronie procesora CPU1. Sprawdź wszystkie moduły A-DIMM pod kątem błędów.
    • Aby sprawdzić, który procesor steruje każdą kartą riser lub gniazdem, zapoznaj się z Podręcznikiem instalacji i serwisowania serwerów oraz przejdź do sekcji Instalowanie i wymontowywanie komponentów> systemu , Kart rozszerzeń i wsporników> kart rozszerzeń : Wskazówki dotyczące instalowania kart rozszerzeń.
    • Aby uzyskać więcej informacji na temat określania, który procesor steruje riserami lub gniazdami, zobacz: PowerEdge: Rozwiązywanie problemów z wykrywaniem urządzeń PCIe
  • Aby wykluczyć wyzwalacze MCE związane z systemem operacyjnym, przetestuj poza systemem operacyjnym, aby sprawdzić, czy błędy są nadal wyzwalane poza systemem operacyjnym.

    Uruchamianie testów obciążenia w Support Live Image

    Czas trwania: 00:02:38 (gg:mm:ss)
    Jeśli to możliwe, ustawienia języka napisów można wybrać za pomocą ikony CC w tym odtwarzaczu wideo.

 

Érintett termékek

PowerFlex rack, C Series, HS Series, Modular Infrastructure, Rack Servers, Tower Servers, XE Servers, XR Servers, OEM Server Solutions, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R860, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Termék tulajdonságai
Article Number: 000349127
Article Type: Solution
Utoljára módosítva: 25 júl. 2025
Version:  4
Választ kaphat kérdéseire más Dell-felhasználóktól
Támogatási szolgáltatások
Ellenőrizze, hogy a készüléke rendelkezik-e támogatási szolgáltatással.