PowerEdge: CPU-maskinkontrollfeil
Summary: Denne artikkelen inneholder informasjon om CPU-maskinkontrollfeil og vanlige årsaker og riktig håndtering når feil vises.
Symptoms
Hva er CPU-maskinkontrollfeil?
På PowerEdge-servere og løsninger som bruker standard BIOS- og iDRAC-fastvare, registreres maskinkontroller i systemhendelsesloggen (SEL).
Disse oppføringene gjenspeiles også i Lifecycle Controller-loggen (LCL) under ulike EEMI-hendelseskoder (Enhanced Error Message Initiative).
| Hendelseskode | Hendelsesmelding |
|---|---|
CPU0011 |
Uncorrectable machine check exception detected on CPU # |
CPU0012 |
Correctable machine check exception detected on CPU # |
CPU0704 |
CPU # machine check detected |
UEFI0076 |
One or more corrected machine check errors have occurred |
UEFI0078 |
One or more machine check errors occurred in the previous boot |
Logg eksempler:
2022-10-22 22:12:35 506 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:34 505 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:33 504 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:31 503 CPU0704 CPU 2 machine check error detected. 2022-10-22 22:12:31 502 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2025-05-21 03:42:32 320 CPU9000 An OEM diagnostic event occurred. 2025-05-21 03:42:30 319 CPU0704 CPU 1 machine check error detected. 2025-05-21 03:42:29 318 PST0090 A problem was detected related to the previous server boot. 2025-05-21 03:42:29 317 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18 712 UEFI0078 One or more Machine Check errors occurred in the previous boot. 2021-09-02 16:02:18 711 CPU0000 Internal error has occurred check for additional logs.
Cause
Forstå årsaker til CPU-maskinkontrollfeil
CPU Machine Check Errors (MCEs) har flere mulige årsaker, alt fra maskinvare til programvareutløsere. Disse feilene kan tilskrives ulike faktorer, inkludert:
- BIOS-fastvare eller CPU-mikrokode
- CPLD-fastvare for hovedkort
- Minnefeil
- PCIE fatale bussfeil
- Feil på operativsystem eller programvare og drivere (BSOD, PSOD eller kjernepanikk)
- CPU-feil
Maskinvareloggene kan brukes til å identifisere mulige årsaker ved å sjekke om andre komponentfeil følger med CPU-maskinkontrollfeilene.
Eksempel på CPU-MCE-er som er utløst av en minnefeil:

Eksempel på CPU MCE utløst fra en uopprettelig bussfeil:
Eksempel på CPU MCE utløst fra en operativsystemkrasj:
Resolution
Generell veiledning
Det er alltid nyttig å stille disse spørsmålene:
- Har det nylig skjedd endringer i systemet, for eksempel oppdateringer eller endringer i maskinvare eller konfigurasjon?
- Er det andre feil i loggene i nærheten som kan være mer informative enn selve maskinkontrollen?
- Hvor ofte skjer maskinkontrollen? Var det et engangstilfelle? Kan det lett reproduseres?
- Er det miljøfaktorer involvert, for eksempel spesifikke arbeidsbelastninger eller strøm- og varmescenarier?
Fastvare og drivere
Utdatert eller inkompatibel fastvare og drivere er blant de vanligste maskinkontrollsynderne, da de jobber sammen for å implementere og kontrollere enhetens oppførsel. Så det er viktig å gjennomgå versjonene som brukes som en del av vurderingen av enhver maskinkontrollundersøkelse.
Blant fastvare er BIOS-oppdateringer kritiske:
- De fleste BIOS-utgivelser inneholder oppdateringer fra den respektive prosessorleverandøren, hvorav mange inkluderer eksplisitte feilrettinger for maskinkontroller.
- Disse UEFI-oppdateringene for servere inkluderer mikrokode, referansekode og andre moduloppdateringer som styrer funksjonalitet, inkludert alle funksjoner for pålitelighet, tilgjengelighet og tilgjengelighet (RAS).
- Samtidig må du ikke overse annen firmware i systemet.
- Så godt som alle enheter i systemet kan være synderen, inkludert iDRAC i sjeldne tilfeller.
Identifisere og løse CPU-maskinkontrollfeil
For å identifisere CPU-maskinkontrollfeil starter du med å kontrollere maskinvareloggene Lifecycle (LC) eller System Event Log (SEL) fra IDRAC direkte eller samler en TSR- eller SupportAssist-samling for å gjennomgå loggene.
- PowerEdge: Eksportere en SupportAssist-samling ved hjelp av en iDRAC
- PowerEdge: Slik viser eller sletter du systemhendelsesloggen
- Brukerveiledning for IDRAC9 – Vise livssykluslogg fra webgrensesnittet
Se om CPU MCE-feilene innledes med andre feil, og om de er fokusert feilsøking på disse komponentene.
Feilsøkingstrinn
- Oppdater all tilgjengelig fastvare og overvåk resultatene for eventuelle endringer i feiloppførsel.
- Hvis bare én CPU viser feil, bytter du CPU-ene for å finne ut om feilen følger CPU-en til den andre kontakten.
- Hvis MCE utløses fra en annen komponentfeil, fokuserer du feilsøkingen på den komponenten.
- Sjekk hvilke komponenter som styres av CPU med MCE.
- Eksempel: Hvis det er en CPU1 MCE, må du kontrollere alle ekspansjonskort og PCIE-spor som styres av CPU1 og alle enheter som er installert i disse sporene, samt minnet på CPU1-siden, se etter feil i alle A-DIMM-er.
- For å kontrollere hvilken CPU som styrer hvert ekspansjonskort eller hvert spor, se installasjons- og servicehåndboken for servere og se under Sette inn og ta ut systemkomponenter>, Utvidelseskort og utvidelseskortstigere>Retningslinjer for installering av ekspansjonskort.
- Hvis du vil ha mer informasjon om hvordan du identifiserer hvilken CPU som styrer ekspansjonskortene eller sporene, kan du se: PowerEdge: Feilsøke problemer med oppdaging av PCIe-enheter
- For å utelukke OS-relaterte MCE-utløsere, test utenfor operativsystemet for å se om feilene fortsatt utløses utenfor operativsystemet.
- Kjør ePSA-diagnostikk for å se om det oppstår feil under testene.
- Start SLI-mediet (Support Live Image) for å teste om det genereres feil i det aktuelle OS-miljøet.
Kjør stresstester i støtte Live Image
Varighet: 00:02:38 (hh:mm:ss)
Når språkinnstillingene for teksting (undertekster) er tilgjengelige, kan du velge ved hjelp av CC-ikonet på denne videospilleren.