PowerEdge:CPU 机器检查错误

Summary: 本文提供有关 CPU 机器检查错误和常见原因以及出现错误时的正确处理的信息。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

什么是 CPU 机器检查错误?

在 PowerEdge 服务器上,并利用使用标准 BIOS 和 iDRAC 固件的解决方案,机器检查将捕获到系统事件日志 (SEL) 中。
这些条目也反映在各种增强型错误消息计划 (EEMI) 事件代码下的 Lifecycle Controller 日志 (LCL) 中。

事件代码 事件消息
CPU0011 Uncorrectable machine check exception detected on CPU #
CPU0012 Correctable machine check exception detected on CPU #
CPU0704 CPU # machine check detected
UEFI0076 One or more corrected machine check errors have occurred
UEFI0078 One or more machine check errors occurred in the previous boot

 

 

 

日志示例:

2022-10-22 22:12:35    506    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:34    505    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:33    504    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:31    503    CPU0704    CPU 2 machine check error detected.
2022-10-22 22:12:31    502    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2025-05-21 03:42:32    320    CPU9000    An OEM diagnostic event occurred.
2025-05-21 03:42:30    319    CPU0704    CPU 1 machine check error detected.
2025-05-21 03:42:29    318    PST0090    A problem was detected related to the previous server boot.
2025-05-21 03:42:29    317    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2021-09-02 16:02:18    712    UEFI0078   One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18    711    CPU0000    Internal error has occurred check for additional logs.

 


Cause

 

了解 CPU 机器检查错误的原因

CPU 机器检查错误 (MCE) 有多种可能的原因,从硬件触发到软件触发。这些错误可归因于多种因素,包括:

  • BIOS 固件或 CPU 微码
  • 主板 CPLD 固件
  • 内存错误
  • PCIE 致命总线错误
  • 作系统崩溃或软件和驱动程序故障(BSOD、PSOD 或内核死机)
  • CPU 故障

硬件日志可用于检查 CPU 机器检查错误是否伴随其他组件错误,从而帮助确定可能的原因。

 

从内存错误触发的 CPU MCE 示例:
DIMM 错误导致的 CPU MCE 错误

 

较新服务器上出现 CPU MCE 和 DIMM 错误

 

从严重总线错误触发的 CPU MCE 示例:
CPU MCE 出现致命总线错误

 

由作系统崩溃触发的 CPU MCE 示例:
CPU MCE 发生作系统崩溃错误

 


Resolution

 

一般指导

提出以下问题总是有帮助的:

  • 系统最近是否发生过更改,例如硬件或配置的更新或更改?
  • 附近的日志中是否存在可能比机器检查本身更有用的其他错误?
  • 机器检查多久进行一次?这是一次性的吗?它可以很容易地复制吗?
  • 是否涉及环境因素,例如特定工作负载或电源和散热场景?

 

固件和驱动程序

过时或不兼容的固件和驱动程序是最常见的机器检查罪魁祸首,因为它们协同工作以实施和控制设备行为。因此,在评估任何机器检查调查时,必须查看使用的版本。

 

在固件中,BIOS 更新至关重要:

  • 大多数 BIOS 版本都包含相应处理器供应商提供的更新,其中许多更新包括机器检查的明确修复。
  • 这些服务器的 UEFI 更新包括微码、参考代码和其他模块更新,这些模块更新控制功能,包括所有可靠性、可用性和可维护性 (RAS) 功能等。
  • 同时,请勿忽略系统中的其他固件。
  • 系统中的几乎任何设备都可能是罪魁祸首,包括极少数情况下的 iDRAC。 

 

识别和解决 CPU 机器检查错误

要识别 CPU 机器检查错误,首先直接从 IDRAC 检查硬件日志生命周期 (LC) 或系统事件日志 (SEL),或者收集 TSR 或 SupportAssist 收集以查看日志。

查看 CPU MCE 错误之前是否有任何其他错误,以及这些错误是否是针对这些组件的故障处理的重点。

 

故障诊断步骤

  • 更新所有可用固件并监视结果是否发生任何错误行为更改。
  • 如果只有一个 CPU 显示错误,请交换 CPU 以确定错误是否跟随 CPU 进入另一个插槽。
  • 如果 MCE 是由其他组件错误触发的,请将故障处理重点放在该组件上。
    • 使用 MCE 检查哪些组件由 CPU 控制。
    • 例如:如果是 CPU1 MCE,请检查由 CPU1 控制的所有转接卡和 PCIE 插槽以及这些插槽中安装的任何设备,以及 CPU1 端的内存,检查所有 A-DIMM 是否有错误。
    • 要验证哪个 CPU 控制每个转接卡或插槽,请参阅服务器 安装和服务手册 ,并查看 安装和卸下系统组件>、扩展卡和扩展卡转接卡>的扩展卡安装原则。
    • 有关确定哪个 CPU 控制转接卡或插槽的更多信息,请参阅:PowerEdge:PCIe 设备检测问题故障处理
  • 若要排除与作系统相关的 MCE 触发器,请在作系统外部进行测试,以查看错误是否仍在作系统外部触发。

    在 Support Live Image 中运行压力测试

    持续时间:00:02:38 (hh:mm:ss)
    如果可用,可以使用此视频播放器上的 CC 图标选择隐藏式字幕(字幕)语言设置。

 

Affected Products

PowerFlex rack, C Series, HS Series, Modular Infrastructure, Rack Servers, Tower Servers, XE Servers, XR Servers, OEM Server Solutions, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R860, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Article Properties
Article Number: 000349127
Article Type: Solution
Last Modified: 25 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.