PowerEdge: Chyby kontroly počítače CPU

Summary: Tento článek obsahuje informace o chybách CPU Machine Check a běžných příčinách a správném zpracování chyb při výskytu chyb.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Co jsou chyby kontroly počítače CPU?

Na serverech PowerEdge a při využití řešení, která používají standardní systém BIOS a firmware řadiče iDRAC, se kontroly počítačů zaznamenávají do protokolu systémových událostí (SEL).
Tyto položky se také projeví v protokolu LCL (Lifecycle Controller) pod různými kódy událostí EEMI (Enhanced Error Message Initiative).

Kód události Zpráva o události
CPU0011 Uncorrectable machine check exception detected on CPU #
CPU0012 Correctable machine check exception detected on CPU #
CPU0704 CPU # machine check detected
UEFI0076 One or more corrected machine check errors have occurred
UEFI0078 One or more machine check errors occurred in the previous boot

 

 

 

Příklady protokolů:

2022-10-22 22:12:35    506    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:34    505    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:33    504    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:31    503    CPU0704    CPU 2 machine check error detected.
2022-10-22 22:12:31    502    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2025-05-21 03:42:32    320    CPU9000    An OEM diagnostic event occurred.
2025-05-21 03:42:30    319    CPU0704    CPU 1 machine check error detected.
2025-05-21 03:42:29    318    PST0090    A problem was detected related to the previous server boot.
2025-05-21 03:42:29    317    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2021-09-02 16:02:18    712    UEFI0078   One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18    711    CPU0000    Internal error has occurred check for additional logs.

 


Cause

 

Pochopení příčin chyb kontroly počítače CPU

Chyby kontroly počítače CPU (MCE) mají několik možných příčin, od hardwarových až po softwarové spouštěče. Tyto chyby lze připsat různým faktorům, včetně:

  • Firmware systému BIOS nebo mikrokód procesoru
  • Firmware CPLD základní desky
  • Chyby paměti
  • Závažné chyby sběrnice PCIE
  • Selhání operačního systému nebo selhání softwaru a ovladačů (pád BSOD, PSOD či panika jádra)
  • Chyby procesoru

Hardwarové protokoly lze použít k identifikaci možných příčin tím, že zkontroluje, zda chyby kontroly počítače CPU nedoprovázejí další chyby komponent.

 

Příklady procesorových MCE aktivovaných chybou paměti:
Chyba MCE procesoru způsobená chybou DIMM

 

MCE procesoru s chybou DIMM na novějších serverech

 

Příklad funkce CPU MCE vyvolané závažnou chybou sběrnice:
MCE procesoru se závažnou chybou sběrnice

 

Příklad MCE procesoru aktivovaného selháním operačního systému:
Chyba CPU MCE s chybou selhání operačního systému

 


Resolution

 

Obecné pokyny

Vždy je užitečné položit si tyto otázky:

  • Došlo v poslední době v systému ke změnám, například k aktualizacím nebo změnám hardwaru či konfigurace?
  • Jsou v protokolech v okolí další chyby, které mohou být více informativní než samotná kontrola stroje?
  • Jak často probíhá kontrola stroje? Byla to jednorázová záležitost? Dá se to snadno reprodukovat?
  • Jsou do hry zapojeny faktory prostředí, jako jsou konkrétní pracovní zatížení nebo scénáře napájení a teploty?

 

Firmware a ovladače

Zastaralý nebo nekompatibilní firmware a ovladače patří mezi nejčastější viníky kontroly strojů, protože spolupracují na implementaci a řízení chování zařízení. Proto je nezbytné zkontrolovat verze, které se používají, jako součást posouzení jakéhokoli vyšetřování kontroly stroje.

 

Z firmwaru jsou nejdůležitější aktualizace systému BIOS:

  • Většina verzí systému BIOS obsahuje aktualizace poskytované příslušným dodavatelem procesoru, z nichž mnohé obsahují explicitní opravy pro kontroly počítačů.
  • Tyto aktualizace rozhraní UEFI pro servery zahrnují aktualizace mikrokódu, referenčního kódu a dalších modulů, které řídí funkce včetně všech funkcí spolehlivosti, dostupnosti a provozuschopnosti (RAS).
  • Zároveň nepřehlédněte ani další firmware v systému.
  • Na vině může být prakticky jakékoli zařízení v systému, ve výjimečných případech i řadič iDRAC. 

 

Identifikace a řešení chyb při kontrole počítače procesoru

Chcete-li zjistit chyby kontroly počítače procesoru, začněte kontrolou hardwarových protokolů Lifecycle (LC) nebo protokolu systémových událostí (SEL) přímo z řadiče iDRAC nebo shromážděte sadu TSR či SupportAssist Collection a zkontrolujte protokoly.

Zkontrolujte, zda chybám MCE procesoru nepředcházejí nějaké jiné chyby a zda se zaměřují na odstraňování problémů s těmito součástmi.

 

Kroky odstranění problémů

  • Aktualizujte veškerý dostupný firmware a sledujte výsledky, zda nedošlo ke změnám chybového chování.
  • Pokud chyby vykazuje pouze jeden procesor, vyměňte procesory a zjistěte, zda se chyba týká procesoru do druhého socketu.
  • Pokud je MCE vyvoláno jinou chybou komponenty, zaměřte odstraňování problémů na tuto komponentu.
    • Zkontrolujte, které komponenty jsou řízeny procesorem pomocí MCE.
    • Například: Pokud se jedná o procesor CPU1 MCE, zkontrolujte všechny risery a sloty PCIE řízené procesorem CPU1 a všechna zařízení nainstalovaná v těchto slotech a také paměť na straně procesoru CPU1 a zkontrolujte, zda ve všech modulech A-DIMM nedochází k chybám.
    • Chcete-li ověřit, který procesor ovládá jednotlivé risery nebo sloty, přečtěte si instalační a servisní příručku serverů v části Instalace a demontáž součástí> systému. Rozšiřující karty a risery> rozšiřujících karet Pokyny k instalaci rozšiřujících karet.
    • Další informace o tom, jak určit, který procesor řídí risery nebo sloty, najdete tady: PowerEdge: Odstraňování problémů s detekcí zařízení PCIe
  • Chcete-li vyloučit spouštěče MCE související s operačním systémem, otestujte chyby mimo operační systém a zjistěte, zda se chyby stále spouštějí mimo operační systém.

    Spuštění zátěžových testů v systému Support Live Image

    Délka: 2:43 (mm:ss)
    Pomocí ikony CC v tomto přehrávači videa si můžete vybrat jazyk titulků, pokud jsou k dispozici.

 

Affected Products

PowerFlex rack, C Series, HS Series, Modular Infrastructure, Rack Servers, Tower Servers, XE Servers, XR Servers, OEM Server Solutions, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R860, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Article Properties
Article Number: 000349127
Article Type: Solution
Last Modified: 25 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.