PowerEdge: Fel vid kontroll av processorn

Summary: Den här artikeln innehåller information om CPU-datorkontrollfel och vanliga orsaker och korrekt hantering när fel upptäcks.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Vad är CPU-maskinkontrollfel?

På PowerEdge-servrar och lösningar som använder standard-BIOS och fast iDRAC-programvara registreras maskinkontroller i systemets händelselogg (SEL).
Dessa poster återspeglas också i Lifecycle Controller-loggen (LCL) under olika EEMI-händelsekoder (Enhanced Error Message Initiative).

Händelsekod Meddelande om händelsen
CPU0011 Uncorrectable machine check exception detected on CPU #
CPU0012 Correctable machine check exception detected on CPU #
CPU0704 CPU # machine check detected
UEFI0076 One or more corrected machine check errors have occurred
UEFI0078 One or more machine check errors occurred in the previous boot

 

 

 

Exempel på loggar:

2022-10-22 22:12:35    506    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:34    505    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:33    504    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:31    503    CPU0704    CPU 2 machine check error detected.
2022-10-22 22:12:31    502    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2025-05-21 03:42:32    320    CPU9000    An OEM diagnostic event occurred.
2025-05-21 03:42:30    319    CPU0704    CPU 1 machine check error detected.
2025-05-21 03:42:29    318    PST0090    A problem was detected related to the previous server boot.
2025-05-21 03:42:29    317    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2021-09-02 16:02:18    712    UEFI0078   One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18    711    CPU0000    Internal error has occurred check for additional logs.

 


Cause

 

Förstå orsakerna till fel vid datorkontroll av processorn

CPU-maskinkontrollfel (MCE) har flera möjliga orsaker, allt från maskinvara till programvaruutlösare. Dessa fel kan hänföras till olika faktorer, inklusive:

  • Fast BIOS-programvara eller CPU-mikrokod
  • Fast programvara för moderkort för CPLD
  • Minnesfel
  • Allvarliga PCIE-bussfel
  • OS-krasch eller programvaru- och drivrutinsfel (BSOD, PSOD eller kernelpanik)
  • CPU-fel

Maskinvaruloggarna kan användas för att identifiera möjliga orsaker genom att kontrollera om andra komponentfel följer med processorns maskinkontrollfel.

 

Exempel på processor-MCE:er som utlöses från ett minnesfel:
CPU MCE-fel orsakat av DIMM-fel

 

CPU MCE med DIMM-fel på nyare servrar

 

Exempel på CPU-MCE som utlöses från ett allvarligt bussfel:
CPU MCE visas med ett allvarligt BUS-fel

 

Exempel på CPU-MCE som utlöses från en OS-krasch:
CPU MCE med OS-kraschfel

 


Resolution

 

Allmän vägledning

Det är alltid bra att ställa dessa frågor:

  • Har systemet nyligen ändrats, till exempel uppdateringar eller ändringar av maskinvara eller konfiguration?
  • Finns det andra fel i loggarna i närheten som kan vara mer informativa än själva maskinkontrollen?
  • Hur ofta sker maskinkontrollen? Var det en engångsföreteelse? Är det lätt att reproducera?
  • Finns det miljöfaktorer inblandade, t.ex. specifika arbetsbelastningar eller ström- och värmescenarier?

 

Fast programvara och drivrutiner

Föråldrad eller inkompatibel fast programvara och drivrutiner är bland de vanligaste maskinkontrollbovarna, eftersom de arbetar tillsammans för att implementera och kontrollera enhetens beteende. Därför är det viktigt att granska de versioner som används som en del av bedömningen av eventuella maskinkontrollundersökningar.

 

Bland den fasta programvaran är BIOS-uppdateringar avgörande:

  • De flesta BIOS-versioner innehåller uppdateringar från respektive processorleverantör, och många av dem innehåller explicita korrigeringar för maskinkontroller.
  • Dessa UEFI-uppdateringar för servrar innehåller mikrokod, referenskod och andra moduluppdateringar som styr funktionaliteten, inklusive alla funktioner för tillförlitlighet, tillgänglighet och användbarhet (RAS) bland annat.
  • Samtidigt får du inte glömma bort annan fast programvara i systemet.
  • Praktiskt taget alla enheter i systemet kan vara boven, i sällsynta fall även iDRAC. 

 

Identifiera och åtgärda fel vid datorkontroll av processor

Om du vill identifiera datorkontrollfel i processorn börjar du med att kontrollera maskinvaruloggarna Lifecycle (LC) eller System Event Log (SEL) direkt från IDRAC eller samlar in en TSR- eller SupportAssist-samling för att granska loggarna.

Titta efter om CPU-MCE-felen föregås av några andra fel och om de fokuserar felsökningen på dessa komponenter.

 

Felsökningssteg

  • Uppdatera all tillgänglig fast programvara och övervaka resultaten för att se om felet har ändrats.
  • Om endast en processor visar fel byter du ut processorerna för att avgöra om felet följer med processorn till den andra sockeln.
  • Om MCE utlöses från ett annat komponentfel fokuserar du felsökningen på den komponenten.
    • Kontrollera vilka komponenter som styrs av CPU:n med MCE.
    • Till exempel: Om det är en CPU1 MCE kontrollerar du alla expansionskort och PCIE-kortplatser som styrs av CPU1 och alla enheter som är installerade i dessa kortplatser, samt minnet på CPU1-sidan.
    • För att kontrollera vilken CPU som styr varje expansionskort eller kortplats, se Installations- och servicehandbok för servrar, och titta under Installera och ta bort systemkomponenter>, Expansionskort och förlängningskort>för expansionskort, Installationsriktlinjer för expansionskort.
    • Mer information om hur du identifierar vilken processor som styr expansionskorten eller kortplatserna finns i: PowerEdge: Felsöka problem med identifiering av PCIe-enheter
  • Om du vill utesluta OS-relaterade MCE-utlösare testar du utanför operativsystemet för att se om felen fortfarande utlöses utanför operativsystemet.

    Kör stresstester i Support Live Image

    Längd: 00:02:38 (hh:mm:ss)
    Om det är möjligt kan du välja språkinställningar för dold textning (undertexter) med hjälp av CC-ikonen i videospelaren.

 

Affected Products

PowerFlex rack, C Series, HS Series, Modular Infrastructure, Rack Servers, Tower Servers, XE Servers, XR Servers, OEM Server Solutions, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R860, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Article Properties
Article Number: 000349127
Article Type: Solution
Last Modified: 25 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.