PowerEdge:CPUマシン チェック エラー
Summary: この記事では、CPUマシン チェック エラーと一般的な原因、およびエラーが発生した場合の適切な処理について説明します。
Symptoms
CPUマシン チェック エラーとは何ですか?
PowerEdgeサーバーで、標準のBIOSおよびiDRACファームウェアを使用するソリューションを活用する場合、マシン チェックはシステム イベント ログ(SEL)にキャプチャされます
これらのエントリーは、Lifecycle Controllerログ(LCL)のさまざまなEEMI(拡張エラー メッセージ イニシアティブ)イベント コードにも反映されます。
| イベント コード | イベント メッセージ |
|---|---|
CPU0011 |
Uncorrectable machine check exception detected on CPU # |
CPU0012 |
Correctable machine check exception detected on CPU # |
CPU0704 |
CPU # machine check detected |
UEFI0076 |
One or more corrected machine check errors have occurred |
UEFI0078 |
One or more machine check errors occurred in the previous boot |
ログの例:
2022-10-22 22:12:35 506 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:34 505 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:33 504 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:31 503 CPU0704 CPU 2 machine check error detected. 2022-10-22 22:12:31 502 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2025-05-21 03:42:32 320 CPU9000 An OEM diagnostic event occurred. 2025-05-21 03:42:30 319 CPU0704 CPU 1 machine check error detected. 2025-05-21 03:42:29 318 PST0090 A problem was detected related to the previous server boot. 2025-05-21 03:42:29 317 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18 712 UEFI0078 One or more Machine Check errors occurred in the previous boot. 2021-09-02 16:02:18 711 CPU0000 Internal error has occurred check for additional logs.
Cause
CPUマシンチェックエラーの原因について
CPUマシン チェック エラー(MCE)には、ハードウェア トリガーからソフトウェア トリガーまで、複数の原因が考えられます。これらのエラーは、次のようなさまざまな要因に起因する可能性があります。
- BIOSファームウェアまたはCPUマイクロコード
- マザーボードCPLDファームウェア
- メモリエラー
- PCIE致命的バス エラー
- OSのクラッシュまたはソフトウェアとドライバーの障害(BSOD、PSOD、カーネル パニック)
- CPU障害
ハードウェア ログを使用して、CPUマシン チェック エラーに付随している他のコンポーネント エラーを確認することで、考えられる原因を特定できます。
メモリー エラーからトリガーされたCPU MCEの例:

致命的なバス エラーからトリガーされたCPU MCEの例:
OSクラッシュからトリガーされたCPU MCEの例:
Resolution
一般的なガイダンス
次の質問をすると、常に役に立ちます。
- ハードウェアまたは構成のアップデートや変更など、システムに最近の変更がありましたか?
- 近くのログに、マシン チェック自体よりも有益な他のエラーはありますか?
- マシン チェックはどのくらいの頻度で行われますか? 1回限りのものだったのでしょうか? 簡単に再現できますか?
- 特定のワークロードや電力および温度シナリオなど、関連する環境要因はありますか?
ファームウェアとドライバー
古い、または互換性のないファームウェアとドライバーは、デバイスの動作を実装および制御するために連携するため、最も一般的なマシンチェックの原因の1つです。そのため、マシン チェック調査の評価の一環として、使用されているバージョンを確認することが不可欠です。
ファームウェアの中でも、BIOSのアップデートは非常に重要です。
- ほとんどのBIOSリリースには、各プロセッサー ベンダーが提供するアップデートが組み込まれており、その多くはマシン チェックの明示的な修正を含んでいます。
- サーバーのこれらのUEFIアップデートには、マイクロコード、リファレンスコード、およびすべての信頼性、可用性、および保守性(RAS)機能を含む機能を制御するその他のモジュールのアップデートが含まれます。
- 同時に、システム内の他のファームウェアも見落とさないようにしてください。
- システム内のほぼすべてのデバイスが原因である可能性があります。これには、まれにiDRACも含まれます。
CPUマシン チェック エラーの特定と解決
CPUマシン チェック エラーを特定するには、まずiDRACから直接ハードウェア ログのライフサイクル(LC)またはシステム イベント ログ(SEL)を確認するか、TSRまたはSupportAssistコレクションを収集してログを確認します。
- PowerEdge:iDRACを使用したSupportAssistコレクションのエクスポート
- PowerEdge:システム イベント ログを表示またはクリアする方法
- iDRAC9ユーザーズ ガイド - WebインターフェイスからのLifecycleログの表示
CPU MCEエラーが他のエラーより先行しているかどうか、およびそれらのコンポーネントに重点を置いたトラブルシューティングであるかどうかを確認します。
トラブルシューティング手順
- 使用可能なすべてのファームウェアをアップデートし、エラー動作の変化がないか結果を監視します。
- 1つのCPUのみがエラーを示している場合は、CPUをスワップして、エラーが他のソケットのCPUに依存しているかどうかを確認します。
- MCEが別のコンポーネント エラーからトリガーされた場合は、そのコンポーネントに重点を置いたトラブルシューティングを行います。
- MCEを使用して、CPUによって制御されているコンポーネントを確認します。
- 例:CPU1 MCE の場合は、CPU1 によって制御されているすべてのライザーと PCIE スロット、およびそれらのスロットに取り付けられているすべてのデバイス、および CPU1 側のメモリをチェックし、すべての A-DIMM にエラーがないか確認します。
- どのCPUが各ライザーまたはスロットを制御しているかを確認するには、『サーバー設置およびサービス マニュアル』の「拡張カードおよび拡張カード ライザー>システム コンポーネントの取り付けと取り外し」>「拡張カードの取り付けガイドライン」を参照してください。
- ライザーまたはスロットを制御するCPUを特定する方法の詳細については、次を参照してください。PowerEdge:PCIeデバイス検出の問題のトラブルシューティング
- OS関連のMCEトリガーを除外するには、OSの外部でテストして、エラーがOSの外部でトリガーされるかどうかを確認します。
- ePSA診断を実行して、テスト中にエラーが発生するかどうかを確認します。
- Support Live Image(SLI)メディアを起動して、そのOS環境でエラーが生成されるかどうかをテストします。
Support Live Imageでストレス テストを実行する
再生時間:00:02:38 (hh:mm:ss)
利用可能な場合、このビデオ プレーヤーのCCアイコンを使用してクローズド キャプション(字幕)の言語設定を選択できます。