PowerEdge: CPU-Maschinenprüffehler

Summary: Dieser Artikel enthält Informationen zu CPU-Computerprüfungsfehlern und häufigen Ursachen sowie zur ordnungsgemäßen Behandlung bei auftretenden Fehlern.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Was sind CPU-Maschinenprüffehler?

Auf PowerEdge-Servern und Lösungen, die Standard-BIOS und iDRAC-Firmware verwenden, werden Maschinenprüfungen im Systemereignisprotokoll (SEL) erfasst.
Diese Einträge werden auch im Lifecycle Controller-Protokoll (LCL) unter verschiedenen EEMI-Ereigniscodes (Enhanced Error Message Initiative) angezeigt.

Ereigniscode Ereignismeldung
CPU0011 Uncorrectable machine check exception detected on CPU #
CPU0012 Correctable machine check exception detected on CPU #
CPU0704 CPU # machine check detected
UEFI0076 One or more corrected machine check errors have occurred
UEFI0078 One or more machine check errors occurred in the previous boot

 

 

 

Protokollbeispiele:

2022-10-22 22:12:35    506    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:34    505    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:33    504    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:31    503    CPU0704    CPU 2 machine check error detected.
2022-10-22 22:12:31    502    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2025-05-21 03:42:32    320    CPU9000    An OEM diagnostic event occurred.
2025-05-21 03:42:30    319    CPU0704    CPU 1 machine check error detected.
2025-05-21 03:42:29    318    PST0090    A problem was detected related to the previous server boot.
2025-05-21 03:42:29    317    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2021-09-02 16:02:18    712    UEFI0078   One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18    711    CPU0000    Internal error has occurred check for additional logs.

 


Cause

 

Ursachen von CPU-Maschinenprüfungsfehlern verstehen

Für MCEs (CPU Machine Check Errors) gibt es mehrere mögliche Ursachen, die von Hardware- bis hin zu Softwareauslösern reichen. Diese Fehler können auf verschiedene Faktoren zurückgeführt werden, darunter:

  • BIOS-Firmware oder CPU-Mikrocode
  • Hauptplatinen-CPLD-Firmware
  • Speicherfehler
  • Schwerwiegende PCIE-Busfehler
  • Betriebssystemabsturz oder Software- und Treiberfehler (BSOD, PSOD oder Kernel-Panics)
  • CPU-Fehler

Die Hardwareprotokolle können verwendet werden, um mögliche Ursachen zu identifizieren, indem geprüft wird, ob andere Komponentenfehler mit den CPU-Maschinenprüffehlern einhergehen.

 

Beispiel für CPU-MCEs, die durch einen Speicherfehler ausgelöst wurden:
CPU-MCE-Fehler durch DIMM-Fehler

 

CPU-MCE mit DIMM-Fehler auf neueren Servern

 

Beispiel für CPU-MCE, ausgelöst durch einen schwerwiegenden Busfehler:
CPU-MCE mit einem schwerwiegenden BUS-Fehler

 

Beispiel für CPU-MCE, ausgelöst durch einen Betriebssystemabsturz:
CPU-MCE mit BS-Absturzfehler

 


Resolution

 

Allgemeine Hinweise

Es ist immer hilfreich, sich diese Fragen zu stellen:

  • Gab es kürzlich Änderungen am System, wie Updates oder Änderungen an Hardware oder Konfiguration?
  • Gibt es andere Fehler in den Protokollen in der Nähe, die möglicherweise aussagekräftiger sind als die Maschinenprüfung selbst?
  • Wie häufig findet die Maschinenkontrolle statt? War es ein Einzelfall? Kann es ohne weiteres reproduziert werden?
  • Gibt es Umgebungsfaktoren, wie z. B. bestimmte Workloads oder Strom- und Temperaturszenarien?

 

Firmware und Treiber

Veraltete oder inkompatible Firmware und Treiber gehören zu den häufigsten Verursachern von Maschinenprüfungen, da sie zusammenarbeiten, um das Geräteverhalten zu implementieren und zu steuern. Daher ist es wichtig, die verwendeten Versionen im Rahmen der Bewertung einer maschinellen Überprüfungsuntersuchung zu überprüfen.

 

Unter der Firmware sind BIOS-Updates von entscheidender Bedeutung:

  • Die meisten BIOS-Versionen enthalten Aktualisierungen, die vom jeweiligen Prozessorhersteller bereitgestellt werden, von denen viele explizite Korrekturen für Computerprüfungen enthalten.
  • Diese UEFI-Updates für Server umfassen Mikrocode-, Referenzcode- und andere Modulupdates, die die Funktionalität steuern, einschließlich aller Zuverlässigkeits-, Verfügbarkeits- und Betriebsfähigkeitsfunktionen (RAS).
  • Gleichzeitig darf keine andere Firmware im System übersehen werden.
  • Praktisch jedes Gerät im System kann der Übeltäter sein, in seltenen Fällen auch der iDRAC. 

 

Identifizieren und Beheben von CPU-Maschinenprüfungsfehlern

Um CPU-Rechnerprüffehler zu identifizieren, überprüfen Sie zunächst die Hardwareprotokolle Lifecycle (LC) oder Systemereignisprotokoll (SEL) direkt vom IDRAC oder erfassen Sie eine TSR- oder SupportAssist-Erfassung, um die Protokolle zu überprüfen.

Überprüfen Sie, ob den CPU-MCE-Fehlern andere Fehler vorausgegangen sind und ob sie sich auf das Troubleshooting dieser Komponenten konzentrieren.

 

Schritte zur Fehlerbehebung

  • Aktualisieren Sie die gesamte verfügbare Firmware und überwachen Sie die Ergebnisse auf Änderungen des Fehlerverhaltens.
  • Wenn nur eine CPU Fehler aufweist, tauschen Sie die CPUs aus, um festzustellen, ob der Fehler der CPU auf den anderen Sockel folgt.
  • Wenn die MCE durch einen anderen Komponentenfehler ausgelöst wird, konzentrieren Sie das Troubleshooting auf diese Komponente.
    • Überprüfen Sie mit dem MCE, welche Komponenten von der CPU gesteuert werden.
    • Zum Beispiel: Wenn es sich um eine CPU1-MCE handelt, überprüfen Sie alle Riser und PCIE-Steckplätze, die von CPU1 gesteuert werden, und alle in diesen Steckplätzen installierten Geräte sowie den Speicher auf CPU1-Seite, überprüfen Sie alle A-DIMMs auf Fehler.
    • Um zu überprüfen, welche CPU die einzelnen Riser oder Steckplätze steuert, lesen Sie das Serverinstallations- und Service-Handbuch und sehen Sie unter Installieren und Entfernen von Systemkomponenten>Erweiterungskarten und Erweiterungskarten-Riser>Richtlinien für die Installation von Erweiterungskarten nach.
    • Weitere Informationen dazu, wie Sie ermitteln, welche CPU die Riser oder Steckplätze steuert, finden Sie unter: PowerEdge: Troubleshooting bei Problemen mit der PCIe-Geräteerkennung
  • Um betriebssystembezogene MCE-Auslöser auszuschließen, testen Sie außerhalb des Betriebssystems, um festzustellen, ob die Fehler weiterhin außerhalb des Betriebssystems ausgelöst werden.

    Führen Sie Stresstests in Support Live Image durch

    Dauer: 00:02:38 (hh:mm:ss)
    Wenn verfügbar, können Spracheinstellungen für Untertitel über das CC-Symbol auf diesem Videoplayer ausgewählt werden.

 

Affected Products

PowerFlex rack, C Series, HS Series, Modular Infrastructure, Rack Servers, Tower Servers, XE Servers, XR Servers, OEM Server Solutions, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R860, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Article Properties
Article Number: 000349127
Article Type: Solution
Last Modified: 25 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.