PowerEdge: CPU-maskinkontrolfejl

Summary: Denne artikel indeholder oplysninger om CPU-maskinkontrolfejl og almindelige årsager samt korrekt håndtering, når der ses fejl.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Hvad er CPU-maskinkontrolfejl?

På PowerEdge-servere og med komplette løsninger, der bruger BIOS- og iDRAC-standardfirmware, registreres maskintjek i systemets hændelseslog (SEL).
Disse poster afspejles også i Lifecycle Controller-loggen (LCL) under forskellige EEMI-hændelseskoder (Enhanced Error Message Initiative).

Hændelseskode Hændelsesmeddelelse
CPU0011 Uncorrectable machine check exception detected on CPU #
CPU0012 Correctable machine check exception detected on CPU #
CPU0704 CPU # machine check detected
UEFI0076 One or more corrected machine check errors have occurred
UEFI0078 One or more machine check errors occurred in the previous boot

 

 

 

Logeksempler:

2022-10-22 22:12:35    506    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:34    505    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:33    504    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:31    503    CPU0704    CPU 2 machine check error detected.
2022-10-22 22:12:31    502    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2025-05-21 03:42:32    320    CPU9000    An OEM diagnostic event occurred.
2025-05-21 03:42:30    319    CPU0704    CPU 1 machine check error detected.
2025-05-21 03:42:29    318    PST0090    A problem was detected related to the previous server boot.
2025-05-21 03:42:29    317    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2021-09-02 16:02:18    712    UEFI0078   One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18    711    CPU0000    Internal error has occurred check for additional logs.

 


Cause

 

Forståelse af årsager til CPU-maskinkontrolfejl

CPU-maskinkontrolfejl (MCE'er) har flere mulige årsager, lige fra hardware- til softwareudløsere. Disse fejl kan tilskrives forskellige faktorer, herunder:

  • BIOS-firmware eller CPU-mikrokode
  • Bundkortets CPLD-firmware
  • Hukommelsesfejl
  • PCIE Fatal Bus-fejl
  • OS-nedbrud eller software- og driverfejl (BSOD, PSOD eller kernepanik)
  • CPU-fejl

Hardwarelogfilerne kan bruges til at identificere mulige årsager ved at kontrollere, om andre komponentfejl følger med CPU-maskinkontrolfejl.

 

Eksempel på CPU-MCE er udløst af en hukommelsesfejl:
CPU MCE-fejl forårsaget af DIMM-fejl

 

CPU MCE med DIMM-fejl på nyere servere

 

Eksempel på CPU MCE udløst af en alvorlig busfejl:
CPU MCE set med en fatal BUS-fejl

 

Eksempel på CPU MCE udløst fra et OS-nedbrud:
CPU MCE med OS-nedbrudsfejl

 


Resolution

 

Generel vejledning

Det er altid nyttigt at stille disse spørgsmål:

  • Har der været nylige ændringer i systemet, f.eks. opdateringer eller ændringer i hardware eller konfiguration?
  • Er der andre fejl i logfilerne i nærheden, der kan være mere informative end selve maskinkontrollen?
  • Hvor ofte sker maskinkontrollen? Var det en engangsforeteelse? Kan det let gengives?
  • Er der miljømæssige faktorer involveret, såsom specifikke arbejdsbelastninger eller strøm- og termiske scenarier?

 

Firmware og drivere

Forældet eller inkompatibel firmware og drivere er blandt de mest almindelige maskinkontrolsyndere, da de arbejder sammen om at implementere og kontrollere enhedens adfærd. Så det er vigtigt at gennemgå de versioner, der bruges som en del af vurderingen af enhver maskinkontrolundersøgelse.

 

Blandt firmware er BIOS-opdateringer kritiske:

  • De fleste BIOS-udgivelser indeholder opdateringer fra den respektive processorleverandør, hvoraf mange indeholder eksplicitte rettelser til maskinkontrol.
  • Disse UEFI-opdateringer til servere omfatter mikrokode, referencekode og andre modulopdateringer, der blandt andet styrer funktionaliteten, herunder alle funktioner til pålidelighed, tilgængelighed og servicevenlighed (RAS).
  • Samtidig må du ikke overse anden firmware i systemet.
  • Stort set alle enheder i systemet kan være synderen, herunder i sjældne tilfælde iDRAC. 

 

Identifikation og løsning af CPU-maskinkontrolfejl

For at identificere CPU-maskinkontrolfejl skal du starte med at kontrollere hardwarelogfilerne Lifecycle (LC) eller System Event Log (SEL) direkte fra IDRAC eller indsamle en TSR- eller SupportAssist-samling for at gennemgå logfilerne.

Se efter, om der er andre fejl i CPU MCE-fejlene, og om de fokuserer på fejlfinding på disse komponenter.

 

Fejlfindingstrin

  • Opdater al tilgængelig firmware, og overvåg resultaterne for eventuelle ændringer i fejladfærden.
  • Hvis kun én CPU viser fejl, skal du udskifte CPU'erne for at afgøre, om fejlen følger CPU'en til den anden sokkel.
  • Hvis MCE udløses af en anden komponentfejl, skal du fokusere fejlfinding på den pågældende komponent.
    • Kontrollér, hvilke komponenter der styres af CPU'en med MCE'en.
    • F.eks.: Hvis det er en CPU1 MCE, skal du kontrollere alle udvidelseskort og PCIE-slots, der styres af CPU1, og alle enheder, der er installeret i disse slots, samt hukommelse på CPU1-siden, og kontrollere alle A-DIMM'er for fejl.
    • Du kan kontrollere, hvilken CPU der styrer hver udvidelse eller slot, i installations- og servicemanualen til servere og under Sådan monteres og fjernes systemkomponenter>Udvidelseskort og udvidelseskorthævere>Retningslinjer for installation af udvidelseskort.
    • Du kan finde flere oplysninger om, hvordan du identificerer, hvilken CPU der styrer udvidelseskortene eller slottene, under: PowerEdge: Fejlfinding af problemer med registrering af PCIe-enhed
  • For at udelukke OS-relaterede MCE-udløsere skal du teste uden for operativsystemet for at se, om fejlene stadig udløses uden for operativsystemet.

    Kør stresstest i Support Live Image

    Varighed: 00:02:38 (hh:mm:ss)
    Når sprogindstillingerne for undertekster er tilgængelige, kan du vælge sprogindstillinger for undertekster ved hjælp af CC-ikonet på denne videoafspiller.

 

Affected Products

PowerFlex rack, C Series, HS Series, Modular Infrastructure, Rack Servers, Tower Servers, XE Servers, XR Servers, OEM Server Solutions, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R860, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Article Properties
Article Number: 000349127
Article Type: Solution
Last Modified: 25 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.