RedHat Enterprise Linux(RHEL)およびPowerEdgeRedの「messages」ログに発生するEDACエラー
概要: この文書では、RedHat Enterprise Linux(RHEL)の「messages」ログに発生するEDACエラーに関する問題について説明します。
現象
「/var/log/messages」ログに次のような内容が表示されることがあります。
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE行0、チャネル0、ラベル「CPU_SrcID#0_Channel#1_DIMM#0」: 1 不明なエラー: FATAL領域でのメモリー スクラブ :cpu=0 Err=0008:00c2(ch=2)、addr = 0x1b63f5000 => socket=0、Channel=1(mask=2)、rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE行1、チャネル0、ラベル「CPU_SrcID#0_Channel#2_DIMM#0」: 1 不明なエラー: FATAL領域でのメモリー スクラブ :cpu=0 Err=0008:00c2(ch=2)、addr = 0x1b63f6000 => socket=0、Channel=2(mask=4)、rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE行1、チャネル0、ラベル「CPU_SrcID#0_Channel#2_DIMM#0」: 1 不明なエラー: FATAL領域でのメモリー スクラブ :cpu=0 Err=0008:00c2(ch=2)、addr = 0x1b63f6000 => socket=0、Channel=2(mask=4)、rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE行2、チャネル0、「CPU_SrcID#0_Channel#3_DIMM#0」というラベルを付けます。1 不明なエラー:致命的領域でのメモリー スクラブ:cpu=0 Err=0008:00c2(ch=2)、addr = 0x1b63f7000 => socket=0、Channel=3(mask=8)、rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE行0、チャネル0、ラベル「CPU_SrcID#0_Channel#1_DIMM#0」: 1 不明なエラー:FATAL領域でのメモリー スクラブ:cpu=0 Err=0008:00c2(ch=2)、addr = 0x1b63f8000 => socket=0、 Channel=1(mask=2), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 18:00:08 hostname kernel: sbridge: MCEメモリー エラー
の処理 22 18:00:08ホスト名カーネル: CPU 0: マシン チェック例外: 0 Bank 10: 8c00004d000800c2Sep 22
18:00:08ホスト名カーネル: TSC 0 ADDR 2763f4000 MISC 90000080081a8cプロセッサー0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: MCEメモリー エラー
の処理 22 18:00:08ホスト名カーネル: CPU 0: マシン チェック例外: 0 Bank 10: 8c00004d000800c2Sep 22
18:00:08ホスト名カーネル: TSC 0 ADDR 2763f4000 MISC 900002000201a8cプロセッサー0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: MCEメモリー エラー
の処理 22 18:00:08ホスト名カーネル: CPU 0: マシン チェック例外: 0 Bank 10: 8c00004d000800c2Sep 22
18:00:08ホスト名カーネル: TSC 0 ADDR 2763f4000 MISC 900000400041a8cプロセッサー0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: MCEメモリー エラー
の処理 22 18:00:08ホスト名カーネル: CPU 0: マシン チェック例外: 0 Bank 10: 8c00004d000800c2Sep 22
18:00:08ホスト名カーネル: TSC 0 ADDR 2763f4000 MISC 900000400041a8cプロセッサー0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: MCEメモリー エラー
の処理 22 18:00:08ホスト名カーネル: CPU 0: マシン チェック例外: 0 Bank 10: 8c00004d000800c2Sep 22
18:00:08ホスト名カーネル: TSC 0 ADDR 2763f5000その他900001000101a8cプロセッサー0:206d7 TIME 1379887208 SOCKET 0 APIC 0
原因
これらのエラーは、エラー検出および修正(EDAC)モジュールがチップセットからレジスターを読み取ったときに発生します。ESM/BMC/IPMI/iDRACログではメモリーまたはCPUのエラーは見られない可能性があります。これは、レジスターは1回だけ読み取られ、有効になると、EDACが最初にそれらを取得するためです。
解決方法
- 以下の手順を実行して、edacドライバーをブラックリストに追加します。
- edacモジュールを一覧表示します。
- # lsmod | grep -i edac
- 出力結果をブラックリストに追加します。
- 任意のエディターを使用して「/etc/modprobe.d/blacklist.conf」を編集します。
- モジュールをファイル末尾に追加します。
- 例:
- blacklist i7core_edac
- blacklist edac_core
- edacモジュールを一覧表示します。
- 再起動
- ハードウェアDiagnostics(診断)の実行