RedHat Enterprise Linux (RHEL) 和 PowerEdge 中「messages」記錄中的 EDAC 錯誤

概要: 本文提供 RedHat Enterprise Linux (RHEL) 中「messages」記錄中 EDAC 錯誤問題的相關資訊。

この記事は次に適用されます: この記事は次には適用されません: この記事は、特定の製品に関連付けられていません。 すべての製品パージョンがこの記事に記載されているわけではありません。

現象

問題:

您可能會在「/var/log/messages」記錄中看到類似內容:
 

9 月 22 日 17:58:47 主機名稱核心:EDAC MC0:CE 列 0,通道 0,標籤CPU_SrcID#0_Channel#1_DIMM#0」:1 個未知錯誤:在 FATAL 區域進行記憶體擦洗:cpu=0 Err=0008:00c2 (ch=2),addr = 0x1b63f5000 => 插槽=0, Channel=1 (mask=2),rank=0Sep
22 17:58:47 主機名稱核心:
9 月 22 日 17:58:47 主機名稱核心:EDAC MC0:CE 列 1,通道 0,標籤CPU_SrcID#0_Channel#2_DIMM#0」:1 個未知錯誤:在 FATAL 區域進行記憶體擦洗:cpu=0 Err=0008:00c2 (ch=2),addr = 0x1b63f6000 => 插槽=0, Channel=2 (mask=4),rank=0Sep
22 17:58:47 主機名稱核心:
9 月 22 日 17:58:47 主機名稱核心:EDAC MC0:CE 列 1,通道 0,標籤CPU_SrcID#0_Channel#2_DIMM#0」:1 個未知錯誤:在 FATAL 區域進行記憶體擦洗:cpu=0 Err=0008:00c2 (ch=2),addr = 0x1b63f6000 => 插槽=0, Channel=2 (mask=4),rank=0Sep
22 17:58:47 主機名稱核心:
9 月 22 日 17:58:47 主機名稱核心:EDAC MC0:CE 列 2,通道 0,標籤CPU_SrcID#0_Channel#3_DIMM#0」:1 個未知錯誤:在 FATAL 區域進行記憶體擦洗:cpu=0 Err=0008:00c2 (ch=2),addr = 0x1b63f7000 => 插槽=0, Channel=3 (mask=8),rank=0Sep
22 17:58:47 主機名稱核心:
9 月 22 日 17:58:47 主機名稱核心:EDAC MC0:CE 列 0,通道 0,標籤CPU_SrcID#0_Channel#1_DIMM#0」:1 個未知錯誤:在 FATAL 區域進行記憶體擦洗:cpu=0 Err=0008:00c2 (ch=2),addr = 0x1b63f8000 => 插槽=0, Channel=1 (mask=2),rank=0Sep
22 17:58:47 主機名稱核心:
9 月 22 日 18:00:08 主機名稱核心:sbridge:處理 MCE 記憶體錯誤
Sep 22 18:00:08 主機名稱核心:CPU 0:機器檢查例外狀況:0 銀行 10:8c00004d000800c2Sep
22 18:00:08 主機名稱核心:TSC 0 ADDR 2763f4000 MISC 900000800081a8c PROCESSOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 主機名稱核心:sbridge:處理 MCE 記憶體錯誤
Sep 22 18:00:08 主機名稱核心:CPU 0:機器檢查例外狀況:0 銀行 10:8c00004d000800c2Sep
22 18:00:08 主機名稱核心:TSC 0 ADDR 2763f4000 MISC 900002000201a8c 處理器 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 主機名稱核心:sbridge:處理 MCE 記憶體錯誤
Sep 22 18:00:08 主機名稱核心:CPU 0:機器檢查例外狀況:0 銀行 10:8c00004d000800c2Sep
22 18:00:08 主機名稱核心:TSC 0 ADDR 2763f4000 MISC 900000400041a8c 處理器 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 主機名稱核心:sbridge:處理 MCE 記憶體錯誤
Sep 22 18:00:08 主機名稱核心:CPU 0:機器檢查例外狀況:0 銀行 10:8c00004d000800c2Sep
22 18:00:08 主機名稱核心:TSC 0 ADDR 2763f4000 MISC 900000400041a8c 處理器 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 主機名稱核心:sbridge:處理 MCE 記憶體錯誤
Sep 22 18:00:08 主機名稱核心:CPU 0:機器檢查例外狀況:0 銀行 10:8c00004d000800c2Sep
22 18:00:08 主機名稱核心:TSC 0 ADDR 2763f5000 MISC 900001000101a8c 處理器 0:206d7 時間 1379887208 插槽 0 APIC 0

 

原因

討論:

當錯誤偵測與修正 (EDAC) 模組從晶片組讀取註冊時,會發生這些錯誤。您可能不會注意到 ESM/BMC/IPMI/iDRAC 記錄中有任何記憶體或 CPU 錯誤,因為註冊是讀取一次,啟用後,EDAC 會先取得。

 

解決方法

解決方案:

 

  • 將 edac 驅動程式列入黑名單:
    • 列出 edac 模組:
      • # lsmod |grep -i edac
    • 取得輸出並將它們列入黑名單:
    • 與您最愛的編輯編輯「/etc/modprobe.d/blacklist.conf」
    • 新增檔案底部的模組
    • 範例:
      • 黑名單 i7core_edac
      • 黑名單 edac_core
  • 重新 啟動
  • 執行硬體診斷

 

対象製品

Servers, PowerEdge, Software RAID with Red Hat Enterprise Linux4, Red Hat Enterprise Linux Version 5, Red Hat Enterprise Linux Version 6, Red Hat Enterprise Linux Version 7, Red Hat Enterprise Virtualization 3
文書のプロパティ
文書番号: 000177028
文書の種類: Solution
最終更新: 04 2月 2025
バージョン:  8
質問に対する他のDellユーザーからの回答を見つける
サポート サービス
お使いのデバイスがサポート サービスの対象かどうかを確認してください。