PowerEdge:CPU 機器檢查錯誤

摘要: 本文提供有關 CPU 機器檢查錯誤和常見原因的資訊,以及在看到錯誤時的正確處理方式。

本文章適用於 本文章不適用於 本文無關於任何特定產品。 本文未識別所有產品版本。

症狀

什麼是 CPU 機器檢查錯誤?

在 PowerEdge 伺服器上,運用使用標準 BIOS 和 iDRAC 韌體的解決方案,機器檢查會擷取到系統事件記錄 (SEL) 中。
這些項目也會反映在各種增強型錯誤訊息倡議 (EEMI) 事件代碼下的 Lifecycle Controller 記錄 (LCL) 中。

事件代碼 事件訊息
CPU0011 Uncorrectable machine check exception detected on CPU #
CPU0012 Correctable machine check exception detected on CPU #
CPU0704 CPU # machine check detected
UEFI0076 One or more corrected machine check errors have occurred
UEFI0078 One or more machine check errors occurred in the previous boot

 

 

 

記錄範例:

2022-10-22 22:12:35    506    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:34    505    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:33    504    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:31    503    CPU0704    CPU 2 machine check error detected.
2022-10-22 22:12:31    502    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2025-05-21 03:42:32    320    CPU9000    An OEM diagnostic event occurred.
2025-05-21 03:42:30    319    CPU0704    CPU 1 machine check error detected.
2025-05-21 03:42:29    318    PST0090    A problem was detected related to the previous server boot.
2025-05-21 03:42:29    317    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2021-09-02 16:02:18    712    UEFI0078   One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18    711    CPU0000    Internal error has occurred check for additional logs.

 


原因

 

瞭解 CPU 機器檢查錯誤的原因

CPU 機器檢查錯誤 (MCE) 有多種可能的原因,從硬體觸發到軟體觸發。這些錯誤可歸因於各種因素,包括:

  • BIOS 韌體或 CPU 微碼
  • 主機板 CPLD 韌體
  • 記憶體錯誤
  • PCIE 嚴重匯流排錯誤
  • 作業系統當機或軟體與驅動程式故障 (BSOD、PSOD 或核心錯誤)
  • CPU 故障

硬體記錄可用來檢查 CPU 機器檢查錯誤是否也隨附其他元件錯誤,以協助識別可能的原因。

 

從記憶體錯誤觸發的 CPU MCE 範例:
DIMM 錯誤導致的 CPU MCE 錯誤

 

CPU MCE 在較新的伺服器上發生 DIMM 錯誤

 

從嚴重匯流排錯誤觸發的 CPU MCE 範例:
CPU MCE 出現嚴重的匯流排錯誤

 

作業系統當機觸發的 CPU MCE 範例:
CPU MCE 與作業系統當機錯誤

 


解析度

 

一般指南

提出這些問題總是有説明的:

  • 系統最近是否有變更,例如硬體或組態的更新或變更?
  • 附近的日誌中是否有其他可能比計算機檢查本身提供更多資訊的錯誤?
  • 機器檢查多久進行一次?是一次性的嗎?它可以很容易地複製嗎?
  • 是否涉及環境因素,例如特定工作負載或電源和散熱方案?

 

韌體和驅動程式

過時或不相容的固件和驅動程式是最常見的機器檢查罪魁禍首之一,因為它們協同工作以實現和控制設備行為。因此,在評估任何電腦檢查調查時,請務必查看所使用的版本。

 

在韌體中,BIOS 更新非常重要:

  • 大部分 BIOS 版本都包含個別處理器廠商提供的更新,其中許多都包含機器檢查的明確修正程式。
  • 這些伺服器的 UEFI 更新包括微碼、參考代碼和其他控制功能的模組更新,包括所有可靠性、可用性和檢修性 (RAS) 功能等。
  • 同時,也不要忽略系統中的其他韌體。
  • 系統中幾乎任何裝置都可能是罪魁禍首,在罕見情況下會包括 iDRAC。 

 

識別和解決 CPU 機器檢查錯誤

若要識別 CPU 機器檢查錯誤,請先直接從 IDRAC 檢查硬體記錄生命週期 (LC) 或系統事件記錄 (SEL),或是收集 TSR 或 SupportAssist 集合來檢閱記錄。

查看 CPU MCE 錯誤之前是否有任何其他錯誤,以及這些錯誤是否著重於這些元件的故障診斷。

 

故障診斷步驟

  • 更新所有可用的韌體,並監控結果中的錯誤行為是否有任何變更。
  • 如果只有一個 CPU 顯示錯誤,請交換 CPU,以判斷錯誤是否隨著 CPU 轉移到另一個插槽。
  • 如果 MCE 是因另一個元件錯誤觸發,請將故障診斷的重點放在該元件上。
    • 檢查 CPU 使用 MCE 控制哪些元件。
    • 例如:如果是 CPU1 MCE,請檢查由 CPU1 控制的所有擴充板和 PCIE 插槽、安裝在這些插槽中的任何裝置,以及 CPU1 端的記憶體,檢查所有 A-DIMM 是否有錯誤。
    • 若要確認哪個 CPU 控制每個擴充板或插槽,請參閱伺服器 安裝與維修手冊, 並參閱 安裝和卸下系統元件>、擴充卡和擴充卡擴充板>下方的擴充卡安裝指引。
    • 如需有關識別哪個 CPU 控制擴充板或插槽的詳細資訊,請參閱:PowerEdge:故障診斷 PCIe 裝置偵測問題
  • 若要排除與作業系統相關的 MCE 觸發因素,請在作業系統外部進行測試,確認錯誤是否仍會在作業系統外部觸發。

    在 Support Live Image 中執行壓力測試

    持續時間:00:02:38 (小時:分鐘:ss)
    當可用時,您可以使用此影像播放器上的 CC 圖示來選擇隱藏式輔助字幕 (字幕) 語言設定。

 

受影響的產品

PowerFlex rack, C Series, HS Series, Modular Infrastructure, Rack Servers, Tower Servers, XE Servers, XR Servers, OEM Server Solutions, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R860, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
文章屬性
文章編號: 000349127
文章類型: Solution
上次修改時間: 25 7月 2025
版本:  4
向其他 Dell 使用者尋求您問題的答案
支援服務
檢查您的裝置是否在支援服務的涵蓋範圍內。