PowerEdge: Chyby kontroly počítače CPU
Summary: Tento článek obsahuje informace o chybách CPU Machine Check a běžných příčinách a správném zpracování chyb při výskytu chyb.
Symptoms
Co jsou chyby kontroly počítače CPU?
Na serverech PowerEdge a při využití řešení, která používají standardní systém BIOS a firmware řadiče iDRAC, se kontroly počítačů zaznamenávají do protokolu systémových událostí (SEL).
Tyto položky se také projeví v protokolu LCL (Lifecycle Controller) pod různými kódy událostí EEMI (Enhanced Error Message Initiative).
| Kód události | Zpráva o události |
|---|---|
CPU0011 |
Uncorrectable machine check exception detected on CPU # |
CPU0012 |
Correctable machine check exception detected on CPU # |
CPU0704 |
CPU # machine check detected |
UEFI0076 |
One or more corrected machine check errors have occurred |
UEFI0078 |
One or more machine check errors occurred in the previous boot |
Příklady protokolů:
2022-10-22 22:12:35 506 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:34 505 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:33 504 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:31 503 CPU0704 CPU 2 machine check error detected. 2022-10-22 22:12:31 502 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2025-05-21 03:42:32 320 CPU9000 An OEM diagnostic event occurred. 2025-05-21 03:42:30 319 CPU0704 CPU 1 machine check error detected. 2025-05-21 03:42:29 318 PST0090 A problem was detected related to the previous server boot. 2025-05-21 03:42:29 317 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18 712 UEFI0078 One or more Machine Check errors occurred in the previous boot. 2021-09-02 16:02:18 711 CPU0000 Internal error has occurred check for additional logs.
Cause
Pochopení příčin chyb kontroly počítače CPU
Chyby kontroly počítače CPU (MCE) mají několik možných příčin, od hardwarových až po softwarové spouštěče. Tyto chyby lze připsat různým faktorům, včetně:
- Firmware systému BIOS nebo mikrokód procesoru
- Firmware CPLD základní desky
- Chyby paměti
- Závažné chyby sběrnice PCIE
- Selhání operačního systému nebo selhání softwaru a ovladačů (pád BSOD, PSOD či panika jádra)
- Chyby procesoru
Hardwarové protokoly lze použít k identifikaci možných příčin tím, že zkontroluje, zda chyby kontroly počítače CPU nedoprovázejí další chyby komponent.
Příklady procesorových MCE aktivovaných chybou paměti:

Příklad funkce CPU MCE vyvolané závažnou chybou sběrnice:
Příklad MCE procesoru aktivovaného selháním operačního systému:
Resolution
Obecné pokyny
Vždy je užitečné položit si tyto otázky:
- Došlo v poslední době v systému ke změnám, například k aktualizacím nebo změnám hardwaru či konfigurace?
- Jsou v protokolech v okolí další chyby, které mohou být více informativní než samotná kontrola stroje?
- Jak často probíhá kontrola stroje? Byla to jednorázová záležitost? Dá se to snadno reprodukovat?
- Jsou do hry zapojeny faktory prostředí, jako jsou konkrétní pracovní zatížení nebo scénáře napájení a teploty?
Firmware a ovladače
Zastaralý nebo nekompatibilní firmware a ovladače patří mezi nejčastější viníky kontroly strojů, protože spolupracují na implementaci a řízení chování zařízení. Proto je nezbytné zkontrolovat verze, které se používají, jako součást posouzení jakéhokoli vyšetřování kontroly stroje.
Z firmwaru jsou nejdůležitější aktualizace systému BIOS:
- Většina verzí systému BIOS obsahuje aktualizace poskytované příslušným dodavatelem procesoru, z nichž mnohé obsahují explicitní opravy pro kontroly počítačů.
- Tyto aktualizace rozhraní UEFI pro servery zahrnují aktualizace mikrokódu, referenčního kódu a dalších modulů, které řídí funkce včetně všech funkcí spolehlivosti, dostupnosti a provozuschopnosti (RAS).
- Zároveň nepřehlédněte ani další firmware v systému.
- Na vině může být prakticky jakékoli zařízení v systému, ve výjimečných případech i řadič iDRAC.
Identifikace a řešení chyb při kontrole počítače procesoru
Chcete-li zjistit chyby kontroly počítače procesoru, začněte kontrolou hardwarových protokolů Lifecycle (LC) nebo protokolu systémových událostí (SEL) přímo z řadiče iDRAC nebo shromážděte sadu TSR či SupportAssist Collection a zkontrolujte protokoly.
- PowerEdge: Export sady SupportAssist pomocí řadiče iDRAC
- PowerEdge: Jak zobrazit nebo vymazat protokol systémových událostí
- Uživatelská příručka řadiče IDRAC9 – Zobrazení protokolu Lifecycle z webového rozhraní
Zkontrolujte, zda chybám MCE procesoru nepředcházejí nějaké jiné chyby a zda se zaměřují na odstraňování problémů s těmito součástmi.
Kroky odstranění problémů
- Aktualizujte veškerý dostupný firmware a sledujte výsledky, zda nedošlo ke změnám chybového chování.
- Pokud chyby vykazuje pouze jeden procesor, vyměňte procesory a zjistěte, zda se chyba týká procesoru do druhého socketu.
- Pokud je MCE vyvoláno jinou chybou komponenty, zaměřte odstraňování problémů na tuto komponentu.
- Zkontrolujte, které komponenty jsou řízeny procesorem pomocí MCE.
- Například: Pokud se jedná o procesor CPU1 MCE, zkontrolujte všechny risery a sloty PCIE řízené procesorem CPU1 a všechna zařízení nainstalovaná v těchto slotech a také paměť na straně procesoru CPU1 a zkontrolujte, zda ve všech modulech A-DIMM nedochází k chybám.
- Chcete-li ověřit, který procesor ovládá jednotlivé risery nebo sloty, přečtěte si instalační a servisní příručku serverů v části Instalace a demontáž součástí> systému. Rozšiřující karty a risery> rozšiřujících karet Pokyny k instalaci rozšiřujících karet.
- Další informace o tom, jak určit, který procesor řídí risery nebo sloty, najdete tady: PowerEdge: Odstraňování problémů s detekcí zařízení PCIe
- Chcete-li vyloučit spouštěče MCE související s operačním systémem, otestujte chyby mimo operační systém a zjistěte, zda se chyby stále spouštějí mimo operační systém.
- Spusťte diagnostiku ePSA a zjistěte, zda během testů nedošlo k chybám.
- Spusťte médium SLI (Support Live Image) a otestujte, zda se v daném prostředí operačního systému generují chyby.
Spuštění zátěžových testů v systému Support Live Image
Délka: 2:43 (mm:ss)
Pomocí ikony CC v tomto přehrávači videa si můžete vybrat jazyk titulků, pokud jsou k dispozici.