PowerEdge: Fouten bij controle CPU-machine
Summary: Dit artikel bevat informatie over fouten van de CPU-machinecontrole en veelvoorkomende oorzaken en de juiste afhandeling van fouten bij waargenomen fouten.
Symptoms
Wat zijn controlefouten van de CPU-machine?
Op PowerEdge servers en bij oplossingen die gebruikmaken van standaard BIOS- en iDRAC-firmware, worden machinecontroles vastgelegd in het systeemgebeurtenislogboek (SEL).
Deze vermeldingen worden ook weergegeven in het Lifecycle Controller-logboek (LCL) onder verschillende EEMI-gebeurteniscodes (Enhanced Error Message Initiative).
| Gebeurteniscode | Bericht van gebeurtenis |
|---|---|
CPU0011 |
Uncorrectable machine check exception detected on CPU # |
CPU0012 |
Correctable machine check exception detected on CPU # |
CPU0704 |
CPU # machine check detected |
UEFI0076 |
One or more corrected machine check errors have occurred |
UEFI0078 |
One or more machine check errors occurred in the previous boot |
Voorbeelden van logboeken:
2022-10-22 22:12:35 506 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:34 505 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:33 504 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:31 503 CPU0704 CPU 2 machine check error detected. 2022-10-22 22:12:31 502 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2025-05-21 03:42:32 320 CPU9000 An OEM diagnostic event occurred. 2025-05-21 03:42:30 319 CPU0704 CPU 1 machine check error detected. 2025-05-21 03:42:29 318 PST0090 A problem was detected related to the previous server boot. 2025-05-21 03:42:29 317 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18 712 UEFI0078 One or more Machine Check errors occurred in the previous boot. 2021-09-02 16:02:18 711 CPU0000 Internal error has occurred check for additional logs.
Cause
Oorzaken van fouten van CPU-machinecontrole begrijpen
CPU Machine Check Errors (MCE's) hebben meerdere mogelijke oorzaken, variërend van hardware- tot softwaretriggers. Deze fouten kunnen worden toegeschreven aan verschillende factoren, waaronder:
- BIOS-, firmware- of CPU-microcode
- CPLD-firmware moederbord
- Geheugenfouten
- PCIE Fatal Bus Errors
- Crash van besturingssysteem of fouten in software en drivers (BSOD, PSOD of kernelpanics)
- CPU-fouten
De hardwarelogboeken kunnen worden gebruikt om mogelijke oorzaken te identificeren door te controleren of andere componentfouten de CPU-machinecontrolefouten vergezellen.
Voorbeeld van CPU MCE's geactiveerd door een geheugenfout:

Voorbeeld CPU MCE geactiveerd door een fatale busfout:
Voorbeeld van CPU MCE geactiveerd na een crash van het besturingssysteem:
Resolution
Algemene richtlijnen
Het is altijd nuttig om deze vragen te stellen:
- Zijn er recente wijzigingen in het systeem geweest, zoals updates of wijzigingen in hardware of configuratie?
- Zijn er andere fouten in de logboeken in de buurt die mogelijk informatiever zijn dan de machinecontrole zelf?
- Hoe vaak vindt de machinecontrole plaats? Was het eenmalig? Kan het gemakkelijk worden gereproduceerd?
- Zijn er omgevingsfactoren bij betrokken, zoals specifieke workloads of stroom- en thermische scenario's?
Firmware en drivers
Verouderde of incompatibele firmware en stuurprogramma's behoren tot de meest voorkomende boosdoeners van machinecontroles, omdat ze samenwerken om het gedrag van het apparaat te implementeren en te regelen. Het is dus essentieel om de gebruikte versies te herzien als onderdeel van de beoordeling van een onderzoek naar machinecontroles.
Van de firmware zijn BIOS-updates van cruciaal belang:
- De meeste BIOS-releases bevatten updates die worden geleverd door de betreffende processorleverancier, waarvan vele expliciete oplossingen voor machinecontroles bevatten.
- Deze UEFI-updates voor servers omvatten microcode-, referentiecode- en andere module-updates die de functionaliteit regelen, waaronder alle RAS-functies (Reliability, Availability en Serviceability).
- Houd tegelijkertijd andere firmware in het systeem niet over het hoofd.
- Vrijwel elk apparaat in het systeem kan de boosdoener zijn, waaronder in zeldzame gevallen de iDRAC.
Fouten bij de controle van de CPU-machine identificeren en oplossen
Om fouten bij het controleren van CPU-machines te identificeren, controleert u eerst de hardwarelogboeken Lifecycle (LC) of System Event Log (SEL) rechtstreeks vanuit de IDRAC of verzamelt u een TSR- of SupportAssist-verzameling om de logboeken te bekijken.
- PowerEdge: Een SupportAssist-verzameling exporteren met behulp van een iDRAC
- PowerEdge: Het systeemgebeurtenislogboek weergeven of wissen
- IDRAC9 Gebruikershandleiding - Levenscycluslogboek weergeven via de webinterface
Kijk of de CPU MCE-fouten worden voorafgegaan door andere fouten en of ze zich richten op het oplossen van problemen op die componenten.
Stappen voor probleemoplossing
- Werk alle beschikbare firmware bij en controleer de resultaten op eventuele wijzigingen in het foutgedrag.
- Als slechts één CPU fouten vertoont, verwisselt u de CPU's om te bepalen of de fout de CPU volgt naar de andere socket.
- Als de MCE wordt geactiveerd door een fout van een ander onderdeel, richt u de probleemoplossing op dat onderdeel.
- Controleer welke componenten door de CPU worden aangestuurd met de MCE.
- Bijvoorbeeld: Als het een CPU1 MCE is, controleer dan alle risers en PCIE-slots die worden beheerd door CPU1 en alle apparaten die in deze slots zijn geïnstalleerd, evenals het geheugen aan de CPU1-zijde, en controleer alle A-DIMM's op fouten.
- Om te controleren welke CPU elke riser of slot bedient, raadpleegt u de Servers installatie- en servicehandleiding en kijkt u onder Systeemonderdelen> installeren en verwijderen, Uitbreidingskaarten en uitbreidingskaartrisers>, Installatierichtlijnen voor uitbreidingskaarten.
- Zie voor meer informatie over het identificeren van de CPU die de risers of slots regelt: PowerEdge: Problemen met detectie van PCIe-apparaten oplossen
- Om OS-gerelateerde MCE-triggers uit te sluiten, test u buiten het besturingssysteem om te zien of de fouten nog steeds buiten het besturingssysteem worden geactiveerd.
- Voer een ePSA-diagnose uit om te zien of er fouten worden geactiveerd tijdens de tests.
- Start de SLI-media (Support Live Image) op om te testen of er fouten worden gegenereerd in die OS-omgeving.
Stresstesten uitvoeren in Support Live Image
Duur: 00:02:38 (uu:mm:ss)
Indien beschikbaar kunnen de taalinstellingen voor ondertiteling (ondertiteling) worden gekozen met behulp van het CC-pictogram op deze videospeler.