PowerEdge: Fouten bij controle CPU-machine

Summary: Dit artikel bevat informatie over fouten van de CPU-machinecontrole en veelvoorkomende oorzaken en de juiste afhandeling van fouten bij waargenomen fouten.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Wat zijn controlefouten van de CPU-machine?

Op PowerEdge servers en bij oplossingen die gebruikmaken van standaard BIOS- en iDRAC-firmware, worden machinecontroles vastgelegd in het systeemgebeurtenislogboek (SEL).
Deze vermeldingen worden ook weergegeven in het Lifecycle Controller-logboek (LCL) onder verschillende EEMI-gebeurteniscodes (Enhanced Error Message Initiative).

Gebeurteniscode Bericht van gebeurtenis
CPU0011 Uncorrectable machine check exception detected on CPU #
CPU0012 Correctable machine check exception detected on CPU #
CPU0704 CPU # machine check detected
UEFI0076 One or more corrected machine check errors have occurred
UEFI0078 One or more machine check errors occurred in the previous boot

 

 

 

Voorbeelden van logboeken:

2022-10-22 22:12:35    506    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:34    505    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:33    504    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:31    503    CPU0704    CPU 2 machine check error detected.
2022-10-22 22:12:31    502    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2025-05-21 03:42:32    320    CPU9000    An OEM diagnostic event occurred.
2025-05-21 03:42:30    319    CPU0704    CPU 1 machine check error detected.
2025-05-21 03:42:29    318    PST0090    A problem was detected related to the previous server boot.
2025-05-21 03:42:29    317    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2021-09-02 16:02:18    712    UEFI0078   One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18    711    CPU0000    Internal error has occurred check for additional logs.

 


Cause

 

Oorzaken van fouten van CPU-machinecontrole begrijpen

CPU Machine Check Errors (MCE's) hebben meerdere mogelijke oorzaken, variërend van hardware- tot softwaretriggers. Deze fouten kunnen worden toegeschreven aan verschillende factoren, waaronder:

  • BIOS-, firmware- of CPU-microcode
  • CPLD-firmware moederbord
  • Geheugenfouten
  • PCIE Fatal Bus Errors
  • Crash van besturingssysteem of fouten in software en drivers (BSOD, PSOD of kernelpanics)
  • CPU-fouten

De hardwarelogboeken kunnen worden gebruikt om mogelijke oorzaken te identificeren door te controleren of andere componentfouten de CPU-machinecontrolefouten vergezellen.

 

Voorbeeld van CPU MCE's geactiveerd door een geheugenfout:
CPU MCE-fout veroorzaakt door DIMM-fout

 

CPU MCE met DIMM-fout op nieuwere servers

 

Voorbeeld CPU MCE geactiveerd door een fatale busfout:
CPU MCE gezien met een fatale BUS-fout

 

Voorbeeld van CPU MCE geactiveerd na een crash van het besturingssysteem:
CPU MCE met OS-crashfout

 


Resolution

 

Algemene richtlijnen

Het is altijd nuttig om deze vragen te stellen:

  • Zijn er recente wijzigingen in het systeem geweest, zoals updates of wijzigingen in hardware of configuratie?
  • Zijn er andere fouten in de logboeken in de buurt die mogelijk informatiever zijn dan de machinecontrole zelf?
  • Hoe vaak vindt de machinecontrole plaats? Was het eenmalig? Kan het gemakkelijk worden gereproduceerd?
  • Zijn er omgevingsfactoren bij betrokken, zoals specifieke workloads of stroom- en thermische scenario's?

 

Firmware en drivers

Verouderde of incompatibele firmware en stuurprogramma's behoren tot de meest voorkomende boosdoeners van machinecontroles, omdat ze samenwerken om het gedrag van het apparaat te implementeren en te regelen. Het is dus essentieel om de gebruikte versies te herzien als onderdeel van de beoordeling van een onderzoek naar machinecontroles.

 

Van de firmware zijn BIOS-updates van cruciaal belang:

  • De meeste BIOS-releases bevatten updates die worden geleverd door de betreffende processorleverancier, waarvan vele expliciete oplossingen voor machinecontroles bevatten.
  • Deze UEFI-updates voor servers omvatten microcode-, referentiecode- en andere module-updates die de functionaliteit regelen, waaronder alle RAS-functies (Reliability, Availability en Serviceability).
  • Houd tegelijkertijd andere firmware in het systeem niet over het hoofd.
  • Vrijwel elk apparaat in het systeem kan de boosdoener zijn, waaronder in zeldzame gevallen de iDRAC. 

 

Fouten bij de controle van de CPU-machine identificeren en oplossen

Om fouten bij het controleren van CPU-machines te identificeren, controleert u eerst de hardwarelogboeken Lifecycle (LC) of System Event Log (SEL) rechtstreeks vanuit de IDRAC of verzamelt u een TSR- of SupportAssist-verzameling om de logboeken te bekijken.

Kijk of de CPU MCE-fouten worden voorafgegaan door andere fouten en of ze zich richten op het oplossen van problemen op die componenten.

 

Stappen voor probleemoplossing

  • Werk alle beschikbare firmware bij en controleer de resultaten op eventuele wijzigingen in het foutgedrag.
  • Als slechts één CPU fouten vertoont, verwisselt u de CPU's om te bepalen of de fout de CPU volgt naar de andere socket.
  • Als de MCE wordt geactiveerd door een fout van een ander onderdeel, richt u de probleemoplossing op dat onderdeel.
    • Controleer welke componenten door de CPU worden aangestuurd met de MCE.
    • Bijvoorbeeld: Als het een CPU1 MCE is, controleer dan alle risers en PCIE-slots die worden beheerd door CPU1 en alle apparaten die in deze slots zijn geïnstalleerd, evenals het geheugen aan de CPU1-zijde, en controleer alle A-DIMM's op fouten.
    • Om te controleren welke CPU elke riser of slot bedient, raadpleegt u de Servers installatie- en servicehandleiding en kijkt u onder Systeemonderdelen> installeren en verwijderen, Uitbreidingskaarten en uitbreidingskaartrisers>, Installatierichtlijnen voor uitbreidingskaarten.
    • Zie voor meer informatie over het identificeren van de CPU die de risers of slots regelt: PowerEdge: Problemen met detectie van PCIe-apparaten oplossen
  • Om OS-gerelateerde MCE-triggers uit te sluiten, test u buiten het besturingssysteem om te zien of de fouten nog steeds buiten het besturingssysteem worden geactiveerd.

    Stresstesten uitvoeren in Support Live Image

    Duur: 00:02:38 (uu:mm:ss)
    Indien beschikbaar kunnen de taalinstellingen voor ondertiteling (ondertiteling) worden gekozen met behulp van het CC-pictogram op deze videospeler.

 

Affected Products

PowerFlex rack, C Series, HS Series, Modular Infrastructure, Rack Servers, Tower Servers, XE Servers, XR Servers, OEM Server Solutions, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R860, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Article Properties
Article Number: 000349127
Article Type: Solution
Last Modified: 25 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.