EDAC-Fehler im Protokoll „messages“ in RedHat Enterprise Linux (RHEL) und PowerEdge
概要: Dieser Artikel enthält Informationen zu Problemen mit EDAC-Fehlern im Protokoll „messages“ in RedHat Enterprise Linux (RHEL).
現象
Möglicherweise sehen Sie so etwas wie dieses im Protokoll unter „/var/log/messages“:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE-Zeile 0, Kanal 0, Beschriftung "CPU_SrcID#0_Channel#1_DIMM#0": 1 Unbekannter Fehler: Speicherbereinigung im FATAL-Bereich: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f5000 => socket=0, Channel=1(mask=2), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE-Zeile 1, Kanal 0, Beschriftung "CPU_SrcID#0_Channel#2_DIMM#0": 1 Unbekannter Fehler: Speicherbereinigung auf fatalem Bereich: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f6000 => socket=0, Channel=2(mask=4), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE-Zeile 1, Kanal 0, Beschriftung "CPU_SrcID#0_Channel#2_DIMM#0": 1 Unbekannter Fehler: Speicherbereinigung auf fatalem Bereich: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f6000 => socket=0, Channel=2(mask=4), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE-Zeile 2, Kanal 0, Beschriftung "CPU_SrcID#0_Channel#3_DIMM#0": 1 Unbekannter Fehler: Speicherbereinigung im FATAL-Bereich: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f7000 => socket=0, Channel=3(mask=8), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE-Zeile 0, Kanal 0, Beschriftung "CPU_SrcID#0_Channel#1_DIMM#0": 1 Unbekannter Fehler: Speicherbereinigung im FATAL-Bereich: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f8000 => Socket=0, Channel=1(mask=2), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 18:00:08 hostname kernel: sbridge: HANDLING MCE MEMORY ERRORSep
22 18:00:08 hostname kernel: CPU 0: Ausnahme bei der Computerprüfung: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 Hostname Kernel: TSC 0 ADDR 2763f4000 MISC 900000800081a8c PROZESSOR 0:206d7 ZEIT 1379887208 SOckel 0 APIC 0Sep
22 18:00:08 Hostname Kernel: Sbridge: HANDLING MCE MEMORY ERRORSep
22 18:00:08 hostname kernel: CPU 0: Ausnahme bei der Computerprüfung: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 Hostname Kernel: TSC 0 ADDR 2763f4000 MISC 900002000201a8c PROZESSOR 0:206d7 ZEIT 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 Hostname Kernel: sbridge: HANDLING MCE MEMORY ERRORSep
22 18:00:08 hostname kernel: CPU 0: Ausnahme bei der Computerprüfung: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 Hostname Kernel: TSC 0 ADDR 2763f4000 MISC 900000400041a8c PROZESSOR 0:206d7 ZEIT 1379887208 SOCKEL 0 APIC 0Sep
22 18:00:08 Hostname Kernel: Sbridge: HANDLING MCE MEMORY ERRORSep
22 18:00:08 hostname kernel: CPU 0: Ausnahme bei der Computerprüfung: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 Hostname Kernel: TSC 0 ADDR 2763f4000 MISC 900000400041a8c PROZESSOR 0:206d7 ZEIT 1379887208 SOCKEL 0 APIC 0Sep
22 18:00:08 Hostname Kernel: Sbridge: HANDLING MCE MEMORY ERRORSep
22 18:00:08 hostname kernel: CPU 0: Ausnahme bei der Computerprüfung: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 Hostname Kernel: TSC 0 ADDR 2763f5000 MISC 900001000101a8c PROZESSOR 0:206d7 ZEIT 1379887208 SOCKEL 0 APIC 0
原因
Diese Fehler treten auf, wenn das EDAC-Modul (Error Detection and Correction) die Register vom Chipsatz liest. Möglicherweise bemerken Sie keine Arbeitsspeicher- oder CPU-Fehler im Protokoll von ESM/BMC/IPMI/iDRAC, weil die Register nur einmal ausgelesen werden und wenn dieses aktiviert ist, werden sie vom EDAC zuerst abgerufen.
解決方法
- Den EDAC-Treiber auf die schwarze Liste setzen:
- EDAC-Module auflisten:
- # lsmod | grep -i edac
- Übertragen Sie die Ausgabe und setzen Sie sie auf die schwarze Liste:
- Bearbeiten Sie „/etc/modprobe.d/blacklist.conf“ mit Ihrem bevorzugten Editor
- Fügen Sie die Module unten in der Datei ein:
- Beispiel:
- blacklist i7core_edac
- blacklist edac_core
- EDAC-Module auflisten:
- Reboot
- Durchführen von Hardwarediagnosen