PowerEdge: CPU-Maschinenprüffehler
Summary: Dieser Artikel enthält Informationen zu CPU-Computerprüfungsfehlern und häufigen Ursachen sowie zur ordnungsgemäßen Behandlung bei auftretenden Fehlern.
Symptoms
Was sind CPU-Maschinenprüffehler?
Auf PowerEdge-Servern und Lösungen, die Standard-BIOS und iDRAC-Firmware verwenden, werden Maschinenprüfungen im Systemereignisprotokoll (SEL) erfasst.
Diese Einträge werden auch im Lifecycle Controller-Protokoll (LCL) unter verschiedenen EEMI-Ereigniscodes (Enhanced Error Message Initiative) angezeigt.
| Ereigniscode | Ereignismeldung |
|---|---|
CPU0011 |
Uncorrectable machine check exception detected on CPU # |
CPU0012 |
Correctable machine check exception detected on CPU # |
CPU0704 |
CPU # machine check detected |
UEFI0076 |
One or more corrected machine check errors have occurred |
UEFI0078 |
One or more machine check errors occurred in the previous boot |
Protokollbeispiele:
2022-10-22 22:12:35 506 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:34 505 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:33 504 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:31 503 CPU0704 CPU 2 machine check error detected. 2022-10-22 22:12:31 502 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2025-05-21 03:42:32 320 CPU9000 An OEM diagnostic event occurred. 2025-05-21 03:42:30 319 CPU0704 CPU 1 machine check error detected. 2025-05-21 03:42:29 318 PST0090 A problem was detected related to the previous server boot. 2025-05-21 03:42:29 317 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18 712 UEFI0078 One or more Machine Check errors occurred in the previous boot. 2021-09-02 16:02:18 711 CPU0000 Internal error has occurred check for additional logs.
Cause
Ursachen von CPU-Maschinenprüfungsfehlern verstehen
Für MCEs (CPU Machine Check Errors) gibt es mehrere mögliche Ursachen, die von Hardware- bis hin zu Softwareauslösern reichen. Diese Fehler können auf verschiedene Faktoren zurückgeführt werden, darunter:
- BIOS-Firmware oder CPU-Mikrocode
- Hauptplatinen-CPLD-Firmware
- Speicherfehler
- Schwerwiegende PCIE-Busfehler
- Betriebssystemabsturz oder Software- und Treiberfehler (BSOD, PSOD oder Kernel-Panics)
- CPU-Fehler
Die Hardwareprotokolle können verwendet werden, um mögliche Ursachen zu identifizieren, indem geprüft wird, ob andere Komponentenfehler mit den CPU-Maschinenprüffehlern einhergehen.
Beispiel für CPU-MCEs, die durch einen Speicherfehler ausgelöst wurden:

Beispiel für CPU-MCE, ausgelöst durch einen schwerwiegenden Busfehler:
Beispiel für CPU-MCE, ausgelöst durch einen Betriebssystemabsturz:
Resolution
Allgemeine Hinweise
Es ist immer hilfreich, sich diese Fragen zu stellen:
- Gab es kürzlich Änderungen am System, wie Updates oder Änderungen an Hardware oder Konfiguration?
- Gibt es andere Fehler in den Protokollen in der Nähe, die möglicherweise aussagekräftiger sind als die Maschinenprüfung selbst?
- Wie häufig findet die Maschinenkontrolle statt? War es ein Einzelfall? Kann es ohne weiteres reproduziert werden?
- Gibt es Umgebungsfaktoren, wie z. B. bestimmte Workloads oder Strom- und Temperaturszenarien?
Firmware und Treiber
Veraltete oder inkompatible Firmware und Treiber gehören zu den häufigsten Verursachern von Maschinenprüfungen, da sie zusammenarbeiten, um das Geräteverhalten zu implementieren und zu steuern. Daher ist es wichtig, die verwendeten Versionen im Rahmen der Bewertung einer maschinellen Überprüfungsuntersuchung zu überprüfen.
Unter der Firmware sind BIOS-Updates von entscheidender Bedeutung:
- Die meisten BIOS-Versionen enthalten Aktualisierungen, die vom jeweiligen Prozessorhersteller bereitgestellt werden, von denen viele explizite Korrekturen für Computerprüfungen enthalten.
- Diese UEFI-Updates für Server umfassen Mikrocode-, Referenzcode- und andere Modulupdates, die die Funktionalität steuern, einschließlich aller Zuverlässigkeits-, Verfügbarkeits- und Betriebsfähigkeitsfunktionen (RAS).
- Gleichzeitig darf keine andere Firmware im System übersehen werden.
- Praktisch jedes Gerät im System kann der Übeltäter sein, in seltenen Fällen auch der iDRAC.
Identifizieren und Beheben von CPU-Maschinenprüfungsfehlern
Um CPU-Rechnerprüffehler zu identifizieren, überprüfen Sie zunächst die Hardwareprotokolle Lifecycle (LC) oder Systemereignisprotokoll (SEL) direkt vom IDRAC oder erfassen Sie eine TSR- oder SupportAssist-Erfassung, um die Protokolle zu überprüfen.
- PowerEdge: Exportieren einer SupportAssist-Erfassung mithilfe eines iDRAC
- PowerEdge: Anzeigen oder Löschen des Systemereignisprotokolls
- IDRAC9 Benutzerhandbuch - Lifecycle-Protokoll über die Weboberfläche anzeigen
Überprüfen Sie, ob den CPU-MCE-Fehlern andere Fehler vorausgegangen sind und ob sie sich auf das Troubleshooting dieser Komponenten konzentrieren.
Schritte zur Fehlerbehebung
- Aktualisieren Sie die gesamte verfügbare Firmware und überwachen Sie die Ergebnisse auf Änderungen des Fehlerverhaltens.
- Wenn nur eine CPU Fehler aufweist, tauschen Sie die CPUs aus, um festzustellen, ob der Fehler der CPU auf den anderen Sockel folgt.
- Wenn die MCE durch einen anderen Komponentenfehler ausgelöst wird, konzentrieren Sie das Troubleshooting auf diese Komponente.
- Überprüfen Sie mit dem MCE, welche Komponenten von der CPU gesteuert werden.
- Zum Beispiel: Wenn es sich um eine CPU1-MCE handelt, überprüfen Sie alle Riser und PCIE-Steckplätze, die von CPU1 gesteuert werden, und alle in diesen Steckplätzen installierten Geräte sowie den Speicher auf CPU1-Seite, überprüfen Sie alle A-DIMMs auf Fehler.
- Um zu überprüfen, welche CPU die einzelnen Riser oder Steckplätze steuert, lesen Sie das Serverinstallations- und Service-Handbuch und sehen Sie unter Installieren und Entfernen von Systemkomponenten>Erweiterungskarten und Erweiterungskarten-Riser>Richtlinien für die Installation von Erweiterungskarten nach.
- Weitere Informationen dazu, wie Sie ermitteln, welche CPU die Riser oder Steckplätze steuert, finden Sie unter: PowerEdge: Troubleshooting bei Problemen mit der PCIe-Geräteerkennung
- Um betriebssystembezogene MCE-Auslöser auszuschließen, testen Sie außerhalb des Betriebssystems, um festzustellen, ob die Fehler weiterhin außerhalb des Betriebssystems ausgelöst werden.
- Führen Sie die ePSA-Diagnose durch, um festzustellen, ob während der Tests Fehler ausgelöst werden.
- Starten Sie den SLI-Datenträger (Support Live Image), um zu testen, ob in dieser Betriebssystemumgebung Fehler erzeugt werden.
Führen Sie Stresstests in Support Live Image durch
Dauer: 00:02:38 (hh:mm:ss)
Wenn verfügbar, können Spracheinstellungen für Untertitel über das CC-Symbol auf diesem Videoplayer ausgewählt werden.