PowerEdge: CPU-maskinkontrollfeil

Summary: Denne artikkelen inneholder informasjon om CPU-maskinkontrollfeil og vanlige årsaker og riktig håndtering når feil vises.

Ez a cikk a következő(k)re vonatkozik: Ez a cikk nem vonatkozik a következő(k)re: Ez a cikk nem kapcsolódik egyetlen konkrét termékhez sem. Ez a cikk nem azonosítja az összes termékverziót.

Symptoms

Hva er CPU-maskinkontrollfeil?

På PowerEdge-servere og løsninger som bruker standard BIOS- og iDRAC-fastvare, registreres maskinkontroller i systemhendelsesloggen (SEL).
Disse oppføringene gjenspeiles også i Lifecycle Controller-loggen (LCL) under ulike EEMI-hendelseskoder (Enhanced Error Message Initiative).

Hendelseskode Hendelsesmelding
CPU0011 Uncorrectable machine check exception detected on CPU #
CPU0012 Correctable machine check exception detected on CPU #
CPU0704 CPU # machine check detected
UEFI0076 One or more corrected machine check errors have occurred
UEFI0078 One or more machine check errors occurred in the previous boot

 

 

 

Logg eksempler:

2022-10-22 22:12:35    506    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:34    505    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:33    504    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:31    503    CPU0704    CPU 2 machine check error detected.
2022-10-22 22:12:31    502    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2025-05-21 03:42:32    320    CPU9000    An OEM diagnostic event occurred.
2025-05-21 03:42:30    319    CPU0704    CPU 1 machine check error detected.
2025-05-21 03:42:29    318    PST0090    A problem was detected related to the previous server boot.
2025-05-21 03:42:29    317    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2021-09-02 16:02:18    712    UEFI0078   One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18    711    CPU0000    Internal error has occurred check for additional logs.

 


Cause

 

Forstå årsaker til CPU-maskinkontrollfeil

CPU Machine Check Errors (MCEs) har flere mulige årsaker, alt fra maskinvare til programvareutløsere. Disse feilene kan tilskrives ulike faktorer, inkludert:

  • BIOS-fastvare eller CPU-mikrokode
  • CPLD-fastvare for hovedkort
  • Minnefeil
  • PCIE fatale bussfeil
  • Feil på operativsystem eller programvare og drivere (BSOD, PSOD eller kjernepanikk)
  • CPU-feil

Maskinvareloggene kan brukes til å identifisere mulige årsaker ved å sjekke om andre komponentfeil følger med CPU-maskinkontrollfeilene.

 

Eksempel på CPU-MCE-er som er utløst av en minnefeil:
CPU MCE-feil forårsaket av DIMM-feil

 

CPU MCE med DIMM-feil på nyere servere

 

Eksempel på CPU MCE utløst fra en uopprettelig bussfeil:
CPU MCE sett med en fatal BUS-feil

 

Eksempel på CPU MCE utløst fra en operativsystemkrasj:
CPU MCE med krasjfeil på operativsystemet

 


Resolution

 

Generell veiledning

Det er alltid nyttig å stille disse spørsmålene:

  • Har det nylig skjedd endringer i systemet, for eksempel oppdateringer eller endringer i maskinvare eller konfigurasjon?
  • Er det andre feil i loggene i nærheten som kan være mer informative enn selve maskinkontrollen?
  • Hvor ofte skjer maskinkontrollen? Var det et engangstilfelle? Kan det lett reproduseres?
  • Er det miljøfaktorer involvert, for eksempel spesifikke arbeidsbelastninger eller strøm- og varmescenarier?

 

Fastvare og drivere

Utdatert eller inkompatibel fastvare og drivere er blant de vanligste maskinkontrollsynderne, da de jobber sammen for å implementere og kontrollere enhetens oppførsel. Så det er viktig å gjennomgå versjonene som brukes som en del av vurderingen av enhver maskinkontrollundersøkelse.

 

Blant fastvare er BIOS-oppdateringer kritiske:

  • De fleste BIOS-utgivelser inneholder oppdateringer fra den respektive prosessorleverandøren, hvorav mange inkluderer eksplisitte feilrettinger for maskinkontroller.
  • Disse UEFI-oppdateringene for servere inkluderer mikrokode, referansekode og andre moduloppdateringer som styrer funksjonalitet, inkludert alle funksjoner for pålitelighet, tilgjengelighet og tilgjengelighet (RAS).
  • Samtidig må du ikke overse annen firmware i systemet.
  • Så godt som alle enheter i systemet kan være synderen, inkludert iDRAC i sjeldne tilfeller. 

 

Identifisere og løse CPU-maskinkontrollfeil

For å identifisere CPU-maskinkontrollfeil starter du med å kontrollere maskinvareloggene Lifecycle (LC) eller System Event Log (SEL) fra IDRAC direkte eller samler en TSR- eller SupportAssist-samling for å gjennomgå loggene.

Se om CPU MCE-feilene innledes med andre feil, og om de er fokusert feilsøking på disse komponentene.

 

Feilsøkingstrinn

  • Oppdater all tilgjengelig fastvare og overvåk resultatene for eventuelle endringer i feiloppførsel.
  • Hvis bare én CPU viser feil, bytter du CPU-ene for å finne ut om feilen følger CPU-en til den andre kontakten.
  • Hvis MCE utløses fra en annen komponentfeil, fokuserer du feilsøkingen på den komponenten.
    • Sjekk hvilke komponenter som styres av CPU med MCE.
    • Eksempel: Hvis det er en CPU1 MCE, må du kontrollere alle ekspansjonskort og PCIE-spor som styres av CPU1 og alle enheter som er installert i disse sporene, samt minnet på CPU1-siden, se etter feil i alle A-DIMM-er.
    • For å kontrollere hvilken CPU som styrer hvert ekspansjonskort eller hvert spor, se installasjons- og servicehåndboken for servere og se under Sette inn og ta ut systemkomponenter>, Utvidelseskort og utvidelseskortstigere>Retningslinjer for installering av ekspansjonskort.
    • Hvis du vil ha mer informasjon om hvordan du identifiserer hvilken CPU som styrer ekspansjonskortene eller sporene, kan du se: PowerEdge: Feilsøke problemer med oppdaging av PCIe-enheter
  • For å utelukke OS-relaterte MCE-utløsere, test utenfor operativsystemet for å se om feilene fortsatt utløses utenfor operativsystemet.

    Kjør stresstester i støtte Live Image

    Varighet: 00:02:38 (hh:mm:ss)
    Når språkinnstillingene for teksting (undertekster) er tilgjengelige, kan du velge ved hjelp av CC-ikonet på denne videospilleren.

 

Érintett termékek

PowerFlex rack, C Series, HS Series, Modular Infrastructure, Rack Servers, Tower Servers, XE Servers, XR Servers, OEM Server Solutions, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R860, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Termék tulajdonságai
Article Number: 000349127
Article Type: Solution
Utoljára módosítva: 25 júl. 2025
Version:  4
Választ kaphat kérdéseire más Dell-felhasználóktól
Támogatási szolgáltatások
Ellenőrizze, hogy a készüléke rendelkezik-e támogatási szolgáltatással.