PowerEdge:CPU 机器检查错误
Summary: 本文提供有关 CPU 机器检查错误和常见原因以及出现错误时的正确处理的信息。
Ez a cikk a következő(k)re vonatkozik:
Ez a cikk nem vonatkozik a következő(k)re:
Ez a cikk nem kapcsolódik egyetlen konkrét termékhez sem.
Ez a cikk nem azonosítja az összes termékverziót.
Symptoms
什么是 CPU 机器检查错误?
在 PowerEdge 服务器上,并利用使用标准 BIOS 和 iDRAC 固件的解决方案,机器检查将捕获到系统事件日志 (SEL) 中。
这些条目也反映在各种增强型错误消息计划 (EEMI) 事件代码下的 Lifecycle Controller 日志 (LCL) 中。
| 事件代码 | 事件消息 |
|---|---|
CPU0011 |
Uncorrectable machine check exception detected on CPU # |
CPU0012 |
Correctable machine check exception detected on CPU # |
CPU0704 |
CPU # machine check detected |
UEFI0076 |
One or more corrected machine check errors have occurred |
UEFI0078 |
One or more machine check errors occurred in the previous boot |
日志示例:
2022-10-22 22:12:35 506 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:34 505 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:33 504 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:31 503 CPU0704 CPU 2 machine check error detected. 2022-10-22 22:12:31 502 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2025-05-21 03:42:32 320 CPU9000 An OEM diagnostic event occurred. 2025-05-21 03:42:30 319 CPU0704 CPU 1 machine check error detected. 2025-05-21 03:42:29 318 PST0090 A problem was detected related to the previous server boot. 2025-05-21 03:42:29 317 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18 712 UEFI0078 One or more Machine Check errors occurred in the previous boot. 2021-09-02 16:02:18 711 CPU0000 Internal error has occurred check for additional logs.
Cause
了解 CPU 机器检查错误的原因
CPU 机器检查错误 (MCE) 有多种可能的原因,从硬件触发到软件触发。这些错误可归因于多种因素,包括:
- BIOS 固件或 CPU 微码
- 主板 CPLD 固件
- 内存错误
- PCIE 致命总线错误
- 作系统崩溃或软件和驱动程序故障(BSOD、PSOD 或内核死机)
- CPU 故障
硬件日志可用于检查 CPU 机器检查错误是否伴随其他组件错误,从而帮助确定可能的原因。
从内存错误触发的 CPU MCE 示例:

从严重总线错误触发的 CPU MCE 示例:
由作系统崩溃触发的 CPU MCE 示例:
Resolution
一般指导
提出以下问题总是有帮助的:
- 系统最近是否发生过更改,例如硬件或配置的更新或更改?
- 附近的日志中是否存在可能比机器检查本身更有用的其他错误?
- 机器检查多久进行一次?这是一次性的吗?它可以很容易地复制吗?
- 是否涉及环境因素,例如特定工作负载或电源和散热场景?
固件和驱动程序
过时或不兼容的固件和驱动程序是最常见的机器检查罪魁祸首,因为它们协同工作以实施和控制设备行为。因此,在评估任何机器检查调查时,必须查看使用的版本。
在固件中,BIOS 更新至关重要:
- 大多数 BIOS 版本都包含相应处理器供应商提供的更新,其中许多更新包括机器检查的明确修复。
- 这些服务器的 UEFI 更新包括微码、参考代码和其他模块更新,这些模块更新控制功能,包括所有可靠性、可用性和可维护性 (RAS) 功能等。
- 同时,请勿忽略系统中的其他固件。
- 系统中的几乎任何设备都可能是罪魁祸首,包括极少数情况下的 iDRAC。
识别和解决 CPU 机器检查错误
要识别 CPU 机器检查错误,首先直接从 IDRAC 检查硬件日志生命周期 (LC) 或系统事件日志 (SEL),或者收集 TSR 或 SupportAssist 收集以查看日志。
查看 CPU MCE 错误之前是否有任何其他错误,以及这些错误是否是针对这些组件的故障处理的重点。
故障诊断步骤
- 更新所有可用固件并监视结果是否发生任何错误行为更改。
- 如果只有一个 CPU 显示错误,请交换 CPU 以确定错误是否跟随 CPU 进入另一个插槽。
- 如果 MCE 是由其他组件错误触发的,请将故障处理重点放在该组件上。
- 使用 MCE 检查哪些组件由 CPU 控制。
- 例如:如果是 CPU1 MCE,请检查由 CPU1 控制的所有转接卡和 PCIE 插槽以及这些插槽中安装的任何设备,以及 CPU1 端的内存,检查所有 A-DIMM 是否有错误。
- 要验证哪个 CPU 控制每个转接卡或插槽,请参阅服务器 安装和服务手册 ,并查看 安装和卸下系统组件>、扩展卡和扩展卡转接卡>的扩展卡安装原则。
- 有关确定哪个 CPU 控制转接卡或插槽的更多信息,请参阅:PowerEdge:PCIe 设备检测问题故障处理
- 若要排除与作系统相关的 MCE 触发器,请在作系统外部进行测试,以查看错误是否仍在作系统外部触发。
- 运行 ePSA 诊断程序以查看测试期间是否触发了任何错误。
- 启动 Support Live Image (SLI) 介质以测试该作系统环境中是否生成错误。
在 Support Live Image 中运行压力测试
持续时间:00:02:38 (hh:mm:ss)
如果可用,可以使用此视频播放器上的 CC 图标选择隐藏式字幕(字幕)语言设置。
Érintett termékek
PowerFlex rack, C Series, HS Series, Modular Infrastructure, Rack Servers, Tower Servers, XE Servers, XR Servers, OEM Server Solutions, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625
, Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R860, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840
...
Termék tulajdonságai
Article Number: 000349127
Article Type: Solution
Utoljára módosítva: 25 júl. 2025
Version: 4
Választ kaphat kérdéseire más Dell-felhasználóktól
Támogatási szolgáltatások
Ellenőrizze, hogy a készüléke rendelkezik-e támogatási szolgáltatással.