PowerEdge:CPUマシン チェック エラー

Summary: この記事では、CPUマシン チェック エラーと一般的な原因、およびエラーが発生した場合の適切な処理について説明します。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

CPUマシン チェック エラーとは何ですか?

PowerEdgeサーバーで、標準のBIOSおよびiDRACファームウェアを使用するソリューションを活用する場合、マシン チェックはシステム イベント ログ(SEL)にキャプチャされます
これらのエントリーは、Lifecycle Controllerログ(LCL)のさまざまなEEMI(拡張エラー メッセージ イニシアティブ)イベント コードにも反映されます。

イベント コード イベント メッセージ
CPU0011 Uncorrectable machine check exception detected on CPU #
CPU0012 Correctable machine check exception detected on CPU #
CPU0704 CPU # machine check detected
UEFI0076 One or more corrected machine check errors have occurred
UEFI0078 One or more machine check errors occurred in the previous boot

 

 

 

ログの例:

2022-10-22 22:12:35    506    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:34    505    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:33    504    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:31    503    CPU0704    CPU 2 machine check error detected.
2022-10-22 22:12:31    502    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2025-05-21 03:42:32    320    CPU9000    An OEM diagnostic event occurred.
2025-05-21 03:42:30    319    CPU0704    CPU 1 machine check error detected.
2025-05-21 03:42:29    318    PST0090    A problem was detected related to the previous server boot.
2025-05-21 03:42:29    317    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2021-09-02 16:02:18    712    UEFI0078   One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18    711    CPU0000    Internal error has occurred check for additional logs.

 


Cause

 

CPUマシンチェックエラーの原因について

CPUマシン チェック エラー(MCE)には、ハードウェア トリガーからソフトウェア トリガーまで、複数の原因が考えられます。これらのエラーは、次のようなさまざまな要因に起因する可能性があります。

  • BIOSファームウェアまたはCPUマイクロコード
  • マザーボードCPLDファームウェア
  • メモリエラー
  • PCIE致命的バス エラー
  • OSのクラッシュまたはソフトウェアとドライバーの障害(BSOD、PSOD、カーネル パニック)
  • CPU障害

ハードウェア ログを使用して、CPUマシン チェック エラーに付随している他のコンポーネント エラーを確認することで、考えられる原因を特定できます。

 

メモリー エラーからトリガーされたCPU MCEの例:
DIMMエラーが原因で発生したCPU MCEエラー

 

新しいサーバーでのDIMMエラーを使用したCPU MCE

 

致命的なバス エラーからトリガーされたCPU MCEの例:
CPU MCEに致命的なバス エラーが表示される

 

OSクラッシュからトリガーされたCPU MCEの例:
OSクラッシュ エラーを伴うCPU MCE

 


Resolution

 

一般的なガイダンス

次の質問をすると、常に役に立ちます。

  • ハードウェアまたは構成のアップデートや変更など、システムに最近の変更がありましたか?
  • 近くのログに、マシン チェック自体よりも有益な他のエラーはありますか?
  • マシン チェックはどのくらいの頻度で行われますか? 1回限りのものだったのでしょうか? 簡単に再現できますか?
  • 特定のワークロードや電力および温度シナリオなど、関連する環境要因はありますか?

 

ファームウェアとドライバー

古い、または互換性のないファームウェアとドライバーは、デバイスの動作を実装および制御するために連携するため、最も一般的なマシンチェックの原因の1つです。そのため、マシン チェック調査の評価の一環として、使用されているバージョンを確認することが不可欠です。

 

ファームウェアの中でも、BIOSのアップデートは非常に重要です。

  • ほとんどのBIOSリリースには、各プロセッサー ベンダーが提供するアップデートが組み込まれており、その多くはマシン チェックの明示的な修正を含んでいます。
  • サーバーのこれらのUEFIアップデートには、マイクロコード、リファレンスコード、およびすべての信頼性、可用性、および保守性(RAS)機能を含む機能を制御するその他のモジュールのアップデートが含まれます。
  • 同時に、システム内の他のファームウェアも見落とさないようにしてください。
  • システム内のほぼすべてのデバイスが原因である可能性があります。これには、まれにiDRACも含まれます。 

 

CPUマシン チェック エラーの特定と解決

CPUマシン チェック エラーを特定するには、まずiDRACから直接ハードウェア ログのライフサイクル(LC)またはシステム イベント ログ(SEL)を確認するか、TSRまたはSupportAssistコレクションを収集してログを確認します。

CPU MCEエラーが他のエラーより先行しているかどうか、およびそれらのコンポーネントに重点を置いたトラブルシューティングであるかどうかを確認します。

 

トラブルシューティング手順

  • 使用可能なすべてのファームウェアをアップデートし、エラー動作の変化がないか結果を監視します。
  • 1つのCPUのみがエラーを示している場合は、CPUをスワップして、エラーが他のソケットのCPUに依存しているかどうかを確認します。
  • MCEが別のコンポーネント エラーからトリガーされた場合は、そのコンポーネントに重点を置いたトラブルシューティングを行います。
    • MCEを使用して、CPUによって制御されているコンポーネントを確認します。
    • 例:CPU1 MCE の場合は、CPU1 によって制御されているすべてのライザーと PCIE スロット、およびそれらのスロットに取り付けられているすべてのデバイス、および CPU1 側のメモリをチェックし、すべての A-DIMM にエラーがないか確認します。
    • どのCPUが各ライザーまたはスロットを制御しているかを確認するには、『サーバー設置およびサービス マニュアル』の「拡張カードおよび拡張カード ライザー>システム コンポーネントの取り付けと取り外し」>「拡張カードの取り付けガイドライン」を参照してください。
    • ライザーまたはスロットを制御するCPUを特定する方法の詳細については、次を参照してください。PowerEdge:PCIeデバイス検出の問題のトラブルシューティング
  • OS関連のMCEトリガーを除外するには、OSの外部でテストして、エラーがOSの外部でトリガーされるかどうかを確認します。

    Support Live Imageでストレス テストを実行する

    再生時間:00:02:38 (hh:mm:ss)
    利用可能な場合、このビデオ プレーヤーのCCアイコンを使用してクローズド キャプション(字幕)の言語設定を選択できます。

 

Affected Products

PowerFlex rack, C Series, HS Series, Modular Infrastructure, Rack Servers, Tower Servers, XE Servers, XR Servers, OEM Server Solutions, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R860, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Article Properties
Article Number: 000349127
Article Type: Solution
Last Modified: 25 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.