RedHat Enterprise Linux (RHEL) 和 PowerEdge 中「messages」記錄中的 EDAC 錯誤
概要: 本文提供 RedHat Enterprise Linux (RHEL) 中「messages」記錄中 EDAC 錯誤問題的相關資訊。
現象
您可能會在「/var/log/messages」記錄中看到類似內容:
9 月 22 日 17:58:47 主機名稱核心:EDAC MC0:CE 列 0,通道 0,標籤CPU_SrcID#0_Channel#1_DIMM#0」:1 個未知錯誤:在 FATAL 區域進行記憶體擦洗:cpu=0 Err=0008:00c2 (ch=2),addr = 0x1b63f5000 => 插槽=0, Channel=1 (mask=2),rank=0Sep
22 17:58:47 主機名稱核心:
9 月 22 日 17:58:47 主機名稱核心:EDAC MC0:CE 列 1,通道 0,標籤CPU_SrcID#0_Channel#2_DIMM#0」:1 個未知錯誤:在 FATAL 區域進行記憶體擦洗:cpu=0 Err=0008:00c2 (ch=2),addr = 0x1b63f6000 => 插槽=0, Channel=2 (mask=4),rank=0Sep
22 17:58:47 主機名稱核心:
9 月 22 日 17:58:47 主機名稱核心:EDAC MC0:CE 列 1,通道 0,標籤CPU_SrcID#0_Channel#2_DIMM#0」:1 個未知錯誤:在 FATAL 區域進行記憶體擦洗:cpu=0 Err=0008:00c2 (ch=2),addr = 0x1b63f6000 => 插槽=0, Channel=2 (mask=4),rank=0Sep
22 17:58:47 主機名稱核心:
9 月 22 日 17:58:47 主機名稱核心:EDAC MC0:CE 列 2,通道 0,標籤CPU_SrcID#0_Channel#3_DIMM#0」:1 個未知錯誤:在 FATAL 區域進行記憶體擦洗:cpu=0 Err=0008:00c2 (ch=2),addr = 0x1b63f7000 => 插槽=0, Channel=3 (mask=8),rank=0Sep
22 17:58:47 主機名稱核心:
9 月 22 日 17:58:47 主機名稱核心:EDAC MC0:CE 列 0,通道 0,標籤CPU_SrcID#0_Channel#1_DIMM#0」:1 個未知錯誤:在 FATAL 區域進行記憶體擦洗:cpu=0 Err=0008:00c2 (ch=2),addr = 0x1b63f8000 => 插槽=0, Channel=1 (mask=2),rank=0Sep
22 17:58:47 主機名稱核心:
9 月 22 日 18:00:08 主機名稱核心:sbridge:處理 MCE 記憶體錯誤
Sep 22 18:00:08 主機名稱核心:CPU 0:機器檢查例外狀況:0 銀行 10:8c00004d000800c2Sep
22 18:00:08 主機名稱核心:TSC 0 ADDR 2763f4000 MISC 900000800081a8c PROCESSOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 主機名稱核心:sbridge:處理 MCE 記憶體錯誤
Sep 22 18:00:08 主機名稱核心:CPU 0:機器檢查例外狀況:0 銀行 10:8c00004d000800c2Sep
22 18:00:08 主機名稱核心:TSC 0 ADDR 2763f4000 MISC 900002000201a8c 處理器 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 主機名稱核心:sbridge:處理 MCE 記憶體錯誤
Sep 22 18:00:08 主機名稱核心:CPU 0:機器檢查例外狀況:0 銀行 10:8c00004d000800c2Sep
22 18:00:08 主機名稱核心:TSC 0 ADDR 2763f4000 MISC 900000400041a8c 處理器 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 主機名稱核心:sbridge:處理 MCE 記憶體錯誤
Sep 22 18:00:08 主機名稱核心:CPU 0:機器檢查例外狀況:0 銀行 10:8c00004d000800c2Sep
22 18:00:08 主機名稱核心:TSC 0 ADDR 2763f4000 MISC 900000400041a8c 處理器 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 主機名稱核心:sbridge:處理 MCE 記憶體錯誤
Sep 22 18:00:08 主機名稱核心:CPU 0:機器檢查例外狀況:0 銀行 10:8c00004d000800c2Sep
22 18:00:08 主機名稱核心:TSC 0 ADDR 2763f5000 MISC 900001000101a8c 處理器 0:206d7 時間 1379887208 插槽 0 APIC 0
原因
當錯誤偵測與修正 (EDAC) 模組從晶片組讀取註冊時,會發生這些錯誤。您可能不會注意到 ESM/BMC/IPMI/iDRAC 記錄中有任何記憶體或 CPU 錯誤,因為註冊是讀取一次,啟用後,EDAC 會先取得。
解決方法
- 將 edac 驅動程式列入黑名單:
- 列出 edac 模組:
- # lsmod |grep -i edac
- 取得輸出並將它們列入黑名單:
- 與您最愛的編輯編輯「/etc/modprobe.d/blacklist.conf」
- 新增檔案底部的模組
- 範例:
- 黑名單 i7core_edac
- 黑名單 edac_core
- 列出 edac 模組:
- 重新 啟動
- 執行硬體診斷