PowerEdge: CPU-maskinkontrollfeil

Summary: Denne artikkelen inneholder informasjon om CPU-maskinkontrollfeil og vanlige årsaker og riktig håndtering når feil vises.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Hva er CPU-maskinkontrollfeil?

På PowerEdge-servere og løsninger som bruker standard BIOS- og iDRAC-fastvare, registreres maskinkontroller i systemhendelsesloggen (SEL).
Disse oppføringene gjenspeiles også i Lifecycle Controller-loggen (LCL) under ulike EEMI-hendelseskoder (Enhanced Error Message Initiative).

Hendelseskode Hendelsesmelding
CPU0011 Uncorrectable machine check exception detected on CPU #
CPU0012 Correctable machine check exception detected on CPU #
CPU0704 CPU # machine check detected
UEFI0076 One or more corrected machine check errors have occurred
UEFI0078 One or more machine check errors occurred in the previous boot

 

 

 

Logg eksempler:

2022-10-22 22:12:35    506    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:34    505    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:33    504    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:31    503    CPU0704    CPU 2 machine check error detected.
2022-10-22 22:12:31    502    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2025-05-21 03:42:32    320    CPU9000    An OEM diagnostic event occurred.
2025-05-21 03:42:30    319    CPU0704    CPU 1 machine check error detected.
2025-05-21 03:42:29    318    PST0090    A problem was detected related to the previous server boot.
2025-05-21 03:42:29    317    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2021-09-02 16:02:18    712    UEFI0078   One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18    711    CPU0000    Internal error has occurred check for additional logs.

 


Cause

 

Forstå årsaker til CPU-maskinkontrollfeil

CPU Machine Check Errors (MCEs) har flere mulige årsaker, alt fra maskinvare til programvareutløsere. Disse feilene kan tilskrives ulike faktorer, inkludert:

  • BIOS-fastvare eller CPU-mikrokode
  • CPLD-fastvare for hovedkort
  • Minnefeil
  • PCIE fatale bussfeil
  • Feil på operativsystem eller programvare og drivere (BSOD, PSOD eller kjernepanikk)
  • CPU-feil

Maskinvareloggene kan brukes til å identifisere mulige årsaker ved å sjekke om andre komponentfeil følger med CPU-maskinkontrollfeilene.

 

Eksempel på CPU-MCE-er som er utløst av en minnefeil:
CPU MCE-feil forårsaket av DIMM-feil

 

CPU MCE med DIMM-feil på nyere servere

 

Eksempel på CPU MCE utløst fra en uopprettelig bussfeil:
CPU MCE sett med en fatal BUS-feil

 

Eksempel på CPU MCE utløst fra en operativsystemkrasj:
CPU MCE med krasjfeil på operativsystemet

 


Resolution

 

Generell veiledning

Det er alltid nyttig å stille disse spørsmålene:

  • Har det nylig skjedd endringer i systemet, for eksempel oppdateringer eller endringer i maskinvare eller konfigurasjon?
  • Er det andre feil i loggene i nærheten som kan være mer informative enn selve maskinkontrollen?
  • Hvor ofte skjer maskinkontrollen? Var det et engangstilfelle? Kan det lett reproduseres?
  • Er det miljøfaktorer involvert, for eksempel spesifikke arbeidsbelastninger eller strøm- og varmescenarier?

 

Fastvare og drivere

Utdatert eller inkompatibel fastvare og drivere er blant de vanligste maskinkontrollsynderne, da de jobber sammen for å implementere og kontrollere enhetens oppførsel. Så det er viktig å gjennomgå versjonene som brukes som en del av vurderingen av enhver maskinkontrollundersøkelse.

 

Blant fastvare er BIOS-oppdateringer kritiske:

  • De fleste BIOS-utgivelser inneholder oppdateringer fra den respektive prosessorleverandøren, hvorav mange inkluderer eksplisitte feilrettinger for maskinkontroller.
  • Disse UEFI-oppdateringene for servere inkluderer mikrokode, referansekode og andre moduloppdateringer som styrer funksjonalitet, inkludert alle funksjoner for pålitelighet, tilgjengelighet og tilgjengelighet (RAS).
  • Samtidig må du ikke overse annen firmware i systemet.
  • Så godt som alle enheter i systemet kan være synderen, inkludert iDRAC i sjeldne tilfeller. 

 

Identifisere og løse CPU-maskinkontrollfeil

For å identifisere CPU-maskinkontrollfeil starter du med å kontrollere maskinvareloggene Lifecycle (LC) eller System Event Log (SEL) fra IDRAC direkte eller samler en TSR- eller SupportAssist-samling for å gjennomgå loggene.

Se om CPU MCE-feilene innledes med andre feil, og om de er fokusert feilsøking på disse komponentene.

 

Feilsøkingstrinn

  • Oppdater all tilgjengelig fastvare og overvåk resultatene for eventuelle endringer i feiloppførsel.
  • Hvis bare én CPU viser feil, bytter du CPU-ene for å finne ut om feilen følger CPU-en til den andre kontakten.
  • Hvis MCE utløses fra en annen komponentfeil, fokuserer du feilsøkingen på den komponenten.
    • Sjekk hvilke komponenter som styres av CPU med MCE.
    • Eksempel: Hvis det er en CPU1 MCE, må du kontrollere alle ekspansjonskort og PCIE-spor som styres av CPU1 og alle enheter som er installert i disse sporene, samt minnet på CPU1-siden, se etter feil i alle A-DIMM-er.
    • For å kontrollere hvilken CPU som styrer hvert ekspansjonskort eller hvert spor, se installasjons- og servicehåndboken for servere og se under Sette inn og ta ut systemkomponenter>, Utvidelseskort og utvidelseskortstigere>Retningslinjer for installering av ekspansjonskort.
    • Hvis du vil ha mer informasjon om hvordan du identifiserer hvilken CPU som styrer ekspansjonskortene eller sporene, kan du se: PowerEdge: Feilsøke problemer med oppdaging av PCIe-enheter
  • For å utelukke OS-relaterte MCE-utløsere, test utenfor operativsystemet for å se om feilene fortsatt utløses utenfor operativsystemet.

    Kjør stresstester i støtte Live Image

    Varighet: 00:02:38 (hh:mm:ss)
    Når språkinnstillingene for teksting (undertekster) er tilgjengelige, kan du velge ved hjelp av CC-ikonet på denne videospilleren.

 

Affected Products

PowerFlex rack, C Series, HS Series, Modular Infrastructure, Rack Servers, Tower Servers, XE Servers, XR Servers, OEM Server Solutions, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R860, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Article Properties
Article Number: 000349127
Article Type: Solution
Last Modified: 25 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.