PowerEdge:CPU 机器检查错误

Summary: 本文提供有关 CPU 机器检查错误和常见原因以及出现错误时的正确处理的信息。

Ez a cikk a következő(k)re vonatkozik: Ez a cikk nem vonatkozik a következő(k)re: Ez a cikk nem kapcsolódik egyetlen konkrét termékhez sem. Ez a cikk nem azonosítja az összes termékverziót.

Symptoms

什么是 CPU 机器检查错误?

在 PowerEdge 服务器上,并利用使用标准 BIOS 和 iDRAC 固件的解决方案,机器检查将捕获到系统事件日志 (SEL) 中。
这些条目也反映在各种增强型错误消息计划 (EEMI) 事件代码下的 Lifecycle Controller 日志 (LCL) 中。

事件代码 事件消息
CPU0011 Uncorrectable machine check exception detected on CPU #
CPU0012 Correctable machine check exception detected on CPU #
CPU0704 CPU # machine check detected
UEFI0076 One or more corrected machine check errors have occurred
UEFI0078 One or more machine check errors occurred in the previous boot

 

 

 

日志示例:

2022-10-22 22:12:35    506    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:34    505    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:33    504    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:31    503    CPU0704    CPU 2 machine check error detected.
2022-10-22 22:12:31    502    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2025-05-21 03:42:32    320    CPU9000    An OEM diagnostic event occurred.
2025-05-21 03:42:30    319    CPU0704    CPU 1 machine check error detected.
2025-05-21 03:42:29    318    PST0090    A problem was detected related to the previous server boot.
2025-05-21 03:42:29    317    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2021-09-02 16:02:18    712    UEFI0078   One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18    711    CPU0000    Internal error has occurred check for additional logs.

 


Cause

 

了解 CPU 机器检查错误的原因

CPU 机器检查错误 (MCE) 有多种可能的原因,从硬件触发到软件触发。这些错误可归因于多种因素,包括:

  • BIOS 固件或 CPU 微码
  • 主板 CPLD 固件
  • 内存错误
  • PCIE 致命总线错误
  • 作系统崩溃或软件和驱动程序故障(BSOD、PSOD 或内核死机)
  • CPU 故障

硬件日志可用于检查 CPU 机器检查错误是否伴随其他组件错误,从而帮助确定可能的原因。

 

从内存错误触发的 CPU MCE 示例:
DIMM 错误导致的 CPU MCE 错误

 

较新服务器上出现 CPU MCE 和 DIMM 错误

 

从严重总线错误触发的 CPU MCE 示例:
CPU MCE 出现致命总线错误

 

由作系统崩溃触发的 CPU MCE 示例:
CPU MCE 发生作系统崩溃错误

 


Resolution

 

一般指导

提出以下问题总是有帮助的:

  • 系统最近是否发生过更改,例如硬件或配置的更新或更改?
  • 附近的日志中是否存在可能比机器检查本身更有用的其他错误?
  • 机器检查多久进行一次?这是一次性的吗?它可以很容易地复制吗?
  • 是否涉及环境因素,例如特定工作负载或电源和散热场景?

 

固件和驱动程序

过时或不兼容的固件和驱动程序是最常见的机器检查罪魁祸首,因为它们协同工作以实施和控制设备行为。因此,在评估任何机器检查调查时,必须查看使用的版本。

 

在固件中,BIOS 更新至关重要:

  • 大多数 BIOS 版本都包含相应处理器供应商提供的更新,其中许多更新包括机器检查的明确修复。
  • 这些服务器的 UEFI 更新包括微码、参考代码和其他模块更新,这些模块更新控制功能,包括所有可靠性、可用性和可维护性 (RAS) 功能等。
  • 同时,请勿忽略系统中的其他固件。
  • 系统中的几乎任何设备都可能是罪魁祸首,包括极少数情况下的 iDRAC。 

 

识别和解决 CPU 机器检查错误

要识别 CPU 机器检查错误,首先直接从 IDRAC 检查硬件日志生命周期 (LC) 或系统事件日志 (SEL),或者收集 TSR 或 SupportAssist 收集以查看日志。

查看 CPU MCE 错误之前是否有任何其他错误,以及这些错误是否是针对这些组件的故障处理的重点。

 

故障诊断步骤

  • 更新所有可用固件并监视结果是否发生任何错误行为更改。
  • 如果只有一个 CPU 显示错误,请交换 CPU 以确定错误是否跟随 CPU 进入另一个插槽。
  • 如果 MCE 是由其他组件错误触发的,请将故障处理重点放在该组件上。
    • 使用 MCE 检查哪些组件由 CPU 控制。
    • 例如:如果是 CPU1 MCE,请检查由 CPU1 控制的所有转接卡和 PCIE 插槽以及这些插槽中安装的任何设备,以及 CPU1 端的内存,检查所有 A-DIMM 是否有错误。
    • 要验证哪个 CPU 控制每个转接卡或插槽,请参阅服务器 安装和服务手册 ,并查看 安装和卸下系统组件>、扩展卡和扩展卡转接卡>的扩展卡安装原则。
    • 有关确定哪个 CPU 控制转接卡或插槽的更多信息,请参阅:PowerEdge:PCIe 设备检测问题故障处理
  • 若要排除与作系统相关的 MCE 触发器,请在作系统外部进行测试,以查看错误是否仍在作系统外部触发。

    在 Support Live Image 中运行压力测试

    持续时间:00:02:38 (hh:mm:ss)
    如果可用,可以使用此视频播放器上的 CC 图标选择隐藏式字幕(字幕)语言设置。

 

Érintett termékek

PowerFlex rack, C Series, HS Series, Modular Infrastructure, Rack Servers, Tower Servers, XE Servers, XR Servers, OEM Server Solutions, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R860, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Termék tulajdonságai
Article Number: 000349127
Article Type: Solution
Utoljára módosítva: 25 júl. 2025
Version:  4
Választ kaphat kérdéseire más Dell-felhasználóktól
Támogatási szolgáltatások
Ellenőrizze, hogy a készüléke rendelkezik-e támogatási szolgáltatással.