PowerEdge: CPU-maskinkontrolfejl
Summary: Denne artikel indeholder oplysninger om CPU-maskinkontrolfejl og almindelige årsager samt korrekt håndtering, når der ses fejl.
Symptoms
Hvad er CPU-maskinkontrolfejl?
På PowerEdge-servere og med komplette løsninger, der bruger BIOS- og iDRAC-standardfirmware, registreres maskintjek i systemets hændelseslog (SEL).
Disse poster afspejles også i Lifecycle Controller-loggen (LCL) under forskellige EEMI-hændelseskoder (Enhanced Error Message Initiative).
| Hændelseskode | Hændelsesmeddelelse |
|---|---|
CPU0011 |
Uncorrectable machine check exception detected on CPU # |
CPU0012 |
Correctable machine check exception detected on CPU # |
CPU0704 |
CPU # machine check detected |
UEFI0076 |
One or more corrected machine check errors have occurred |
UEFI0078 |
One or more machine check errors occurred in the previous boot |
Logeksempler:
2022-10-22 22:12:35 506 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:34 505 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:33 504 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:31 503 CPU0704 CPU 2 machine check error detected. 2022-10-22 22:12:31 502 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2025-05-21 03:42:32 320 CPU9000 An OEM diagnostic event occurred. 2025-05-21 03:42:30 319 CPU0704 CPU 1 machine check error detected. 2025-05-21 03:42:29 318 PST0090 A problem was detected related to the previous server boot. 2025-05-21 03:42:29 317 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18 712 UEFI0078 One or more Machine Check errors occurred in the previous boot. 2021-09-02 16:02:18 711 CPU0000 Internal error has occurred check for additional logs.
Cause
Forståelse af årsager til CPU-maskinkontrolfejl
CPU-maskinkontrolfejl (MCE'er) har flere mulige årsager, lige fra hardware- til softwareudløsere. Disse fejl kan tilskrives forskellige faktorer, herunder:
- BIOS-firmware eller CPU-mikrokode
- Bundkortets CPLD-firmware
- Hukommelsesfejl
- PCIE Fatal Bus-fejl
- OS-nedbrud eller software- og driverfejl (BSOD, PSOD eller kernepanik)
- CPU-fejl
Hardwarelogfilerne kan bruges til at identificere mulige årsager ved at kontrollere, om andre komponentfejl følger med CPU-maskinkontrolfejl.
Eksempel på CPU-MCE er udløst af en hukommelsesfejl:

Eksempel på CPU MCE udløst af en alvorlig busfejl:
Eksempel på CPU MCE udløst fra et OS-nedbrud:
Resolution
Generel vejledning
Det er altid nyttigt at stille disse spørgsmål:
- Har der været nylige ændringer i systemet, f.eks. opdateringer eller ændringer i hardware eller konfiguration?
- Er der andre fejl i logfilerne i nærheden, der kan være mere informative end selve maskinkontrollen?
- Hvor ofte sker maskinkontrollen? Var det en engangsforeteelse? Kan det let gengives?
- Er der miljømæssige faktorer involveret, såsom specifikke arbejdsbelastninger eller strøm- og termiske scenarier?
Firmware og drivere
Forældet eller inkompatibel firmware og drivere er blandt de mest almindelige maskinkontrolsyndere, da de arbejder sammen om at implementere og kontrollere enhedens adfærd. Så det er vigtigt at gennemgå de versioner, der bruges som en del af vurderingen af enhver maskinkontrolundersøgelse.
Blandt firmware er BIOS-opdateringer kritiske:
- De fleste BIOS-udgivelser indeholder opdateringer fra den respektive processorleverandør, hvoraf mange indeholder eksplicitte rettelser til maskinkontrol.
- Disse UEFI-opdateringer til servere omfatter mikrokode, referencekode og andre modulopdateringer, der blandt andet styrer funktionaliteten, herunder alle funktioner til pålidelighed, tilgængelighed og servicevenlighed (RAS).
- Samtidig må du ikke overse anden firmware i systemet.
- Stort set alle enheder i systemet kan være synderen, herunder i sjældne tilfælde iDRAC.
Identifikation og løsning af CPU-maskinkontrolfejl
For at identificere CPU-maskinkontrolfejl skal du starte med at kontrollere hardwarelogfilerne Lifecycle (LC) eller System Event Log (SEL) direkte fra IDRAC eller indsamle en TSR- eller SupportAssist-samling for at gennemgå logfilerne.
- PowerEdge: Eksportér en SupportAssist Collection ved hjælp af en iDRAC
- PowerEdge: Sådan får du vist eller rydder du i systemets hændelseslog
- IDRAC9 User s Guide - Visning af Lifecycle Log fra webgrænsefladen
Se efter, om der er andre fejl i CPU MCE-fejlene, og om de fokuserer på fejlfinding på disse komponenter.
Fejlfindingstrin
- Opdater al tilgængelig firmware, og overvåg resultaterne for eventuelle ændringer i fejladfærden.
- Hvis kun én CPU viser fejl, skal du udskifte CPU'erne for at afgøre, om fejlen følger CPU'en til den anden sokkel.
- Hvis MCE udløses af en anden komponentfejl, skal du fokusere fejlfinding på den pågældende komponent.
- Kontrollér, hvilke komponenter der styres af CPU'en med MCE'en.
- F.eks.: Hvis det er en CPU1 MCE, skal du kontrollere alle udvidelseskort og PCIE-slots, der styres af CPU1, og alle enheder, der er installeret i disse slots, samt hukommelse på CPU1-siden, og kontrollere alle A-DIMM'er for fejl.
- Du kan kontrollere, hvilken CPU der styrer hver udvidelse eller slot, i installations- og servicemanualen til servere og under Sådan monteres og fjernes systemkomponenter>Udvidelseskort og udvidelseskorthævere>Retningslinjer for installation af udvidelseskort.
- Du kan finde flere oplysninger om, hvordan du identificerer, hvilken CPU der styrer udvidelseskortene eller slottene, under: PowerEdge: Fejlfinding af problemer med registrering af PCIe-enhed
- For at udelukke OS-relaterede MCE-udløsere skal du teste uden for operativsystemet for at se, om fejlene stadig udløses uden for operativsystemet.
- Kør ePSA-diagnosticering for at se, om der udløses fejl under testene.
- Start SLI-mediet (Support Live Image) for at teste, om der genereres fejl i det pågældende OS-miljø.
Kør stresstest i Support Live Image
Varighed: 00:02:38 (hh:mm:ss)
Når sprogindstillingerne for undertekster er tilgængelige, kan du vælge sprogindstillinger for undertekster ved hjælp af CC-ikonet på denne videoafspiller.