RedHat Enterprise Linux (RHEL) 和 PowerEdge 中「messages」記錄中的 EDAC 錯誤

요약: 本文提供 RedHat Enterprise Linux (RHEL) 中「messages」記錄中 EDAC 錯誤問題的相關資訊。

이 문서는 다음에 적용됩니다. 이 문서는 다음에 적용되지 않습니다. 이 문서는 특정 제품과 관련이 없습니다. 모든 제품 버전이 이 문서에 나와 있는 것은 아닙니다.

증상

問題:

您可能會在「/var/log/messages」記錄中看到類似內容:
 

9 月 22 日 17:58:47 主機名稱核心:EDAC MC0:CE 列 0,通道 0,標籤CPU_SrcID#0_Channel#1_DIMM#0」:1 個未知錯誤:在 FATAL 區域進行記憶體擦洗:cpu=0 Err=0008:00c2 (ch=2),addr = 0x1b63f5000 => 插槽=0, Channel=1 (mask=2),rank=0Sep
22 17:58:47 主機名稱核心:
9 月 22 日 17:58:47 主機名稱核心:EDAC MC0:CE 列 1,通道 0,標籤CPU_SrcID#0_Channel#2_DIMM#0」:1 個未知錯誤:在 FATAL 區域進行記憶體擦洗:cpu=0 Err=0008:00c2 (ch=2),addr = 0x1b63f6000 => 插槽=0, Channel=2 (mask=4),rank=0Sep
22 17:58:47 主機名稱核心:
9 月 22 日 17:58:47 主機名稱核心:EDAC MC0:CE 列 1,通道 0,標籤CPU_SrcID#0_Channel#2_DIMM#0」:1 個未知錯誤:在 FATAL 區域進行記憶體擦洗:cpu=0 Err=0008:00c2 (ch=2),addr = 0x1b63f6000 => 插槽=0, Channel=2 (mask=4),rank=0Sep
22 17:58:47 主機名稱核心:
9 月 22 日 17:58:47 主機名稱核心:EDAC MC0:CE 列 2,通道 0,標籤CPU_SrcID#0_Channel#3_DIMM#0」:1 個未知錯誤:在 FATAL 區域進行記憶體擦洗:cpu=0 Err=0008:00c2 (ch=2),addr = 0x1b63f7000 => 插槽=0, Channel=3 (mask=8),rank=0Sep
22 17:58:47 主機名稱核心:
9 月 22 日 17:58:47 主機名稱核心:EDAC MC0:CE 列 0,通道 0,標籤CPU_SrcID#0_Channel#1_DIMM#0」:1 個未知錯誤:在 FATAL 區域進行記憶體擦洗:cpu=0 Err=0008:00c2 (ch=2),addr = 0x1b63f8000 => 插槽=0, Channel=1 (mask=2),rank=0Sep
22 17:58:47 主機名稱核心:
9 月 22 日 18:00:08 主機名稱核心:sbridge:處理 MCE 記憶體錯誤
Sep 22 18:00:08 主機名稱核心:CPU 0:機器檢查例外狀況:0 銀行 10:8c00004d000800c2Sep
22 18:00:08 主機名稱核心:TSC 0 ADDR 2763f4000 MISC 900000800081a8c PROCESSOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 主機名稱核心:sbridge:處理 MCE 記憶體錯誤
Sep 22 18:00:08 主機名稱核心:CPU 0:機器檢查例外狀況:0 銀行 10:8c00004d000800c2Sep
22 18:00:08 主機名稱核心:TSC 0 ADDR 2763f4000 MISC 900002000201a8c 處理器 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 主機名稱核心:sbridge:處理 MCE 記憶體錯誤
Sep 22 18:00:08 主機名稱核心:CPU 0:機器檢查例外狀況:0 銀行 10:8c00004d000800c2Sep
22 18:00:08 主機名稱核心:TSC 0 ADDR 2763f4000 MISC 900000400041a8c 處理器 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 主機名稱核心:sbridge:處理 MCE 記憶體錯誤
Sep 22 18:00:08 主機名稱核心:CPU 0:機器檢查例外狀況:0 銀行 10:8c00004d000800c2Sep
22 18:00:08 主機名稱核心:TSC 0 ADDR 2763f4000 MISC 900000400041a8c 處理器 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 主機名稱核心:sbridge:處理 MCE 記憶體錯誤
Sep 22 18:00:08 主機名稱核心:CPU 0:機器檢查例外狀況:0 銀行 10:8c00004d000800c2Sep
22 18:00:08 主機名稱核心:TSC 0 ADDR 2763f5000 MISC 900001000101a8c 處理器 0:206d7 時間 1379887208 插槽 0 APIC 0

 

원인

討論:

當錯誤偵測與修正 (EDAC) 模組從晶片組讀取註冊時,會發生這些錯誤。您可能不會注意到 ESM/BMC/IPMI/iDRAC 記錄中有任何記憶體或 CPU 錯誤,因為註冊是讀取一次,啟用後,EDAC 會先取得。

 

해결

解決方案:

 

  • 將 edac 驅動程式列入黑名單:
    • 列出 edac 模組:
      • # lsmod |grep -i edac
    • 取得輸出並將它們列入黑名單:
    • 與您最愛的編輯編輯「/etc/modprobe.d/blacklist.conf」
    • 新增檔案底部的模組
    • 範例:
      • 黑名單 i7core_edac
      • 黑名單 edac_core
  • 重新 啟動
  • 執行硬體診斷

 

해당 제품

Servers, PowerEdge, Software RAID with Red Hat Enterprise Linux4, Red Hat Enterprise Linux Version 5, Red Hat Enterprise Linux Version 6, Red Hat Enterprise Linux Version 7, Red Hat Enterprise Virtualization 3
문서 속성
문서 번호: 000177028
문서 유형: Solution
마지막 수정 시간: 04 2월 2025
버전:  8
다른 Dell 사용자에게 질문에 대한 답변 찾기
지원 서비스
디바이스에 지원 서비스가 적용되는지 확인하십시오.