EDAC-fouten in het 'messages'-logboek in RedHat Enterprise Linux (RHEL) en PowerEdge
概要: Dit artikel bevat informatie over problemen met EDAC-fouten in het 'messages'-logboek in RedHat Enterprise Linux (RHEL).
現象
Er wordt iets dergelijks in het '/var/log/messages'-logboek weergeven:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE-rij 0, kanaal 0, label "CPU_SrcID#0_Channel#1_DIMM#0": 1 Onbekende fout(en): geheugen schrobben op FATAL area: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f5000 => socket=0, Channel=1 (mask=2), rank=0Sep
22 17:58:47 hostname kernel:
22 sep 17:58:47 hostname kernel: EDAC MC0: CE-rij 1, kanaal 0, label "CPU_SrcID#0_Channel#2_DIMM#0": 1 Onbekende fout(en): geheugen schrobben op FATAL area: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f6000 => socket=0, Channel=2(mask=4), rank=0Sep
22 17:58:47 hostname kernel:
22 sep 17:58:47 hostname kernel: EDAC MC0: CE-rij 1, kanaal 0, label "CPU_SrcID#0_Channel#2_DIMM#0": 1 Onbekende fout(en): geheugen schrobben op FATAL area: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f6000 => socket=0, Channel=2(mask=4), rank=0Sep
22 17:58:47 hostname kernel:
22 sep 17:58:47 hostname kernel: EDAC MC0: CE-rij 2, kanaal 0, label "CPU_SrcID#0_Channel#3_DIMM#0": 1 Onbekende fout(en): geheugen schrobben op FATAL area: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f7000 => socket=0, Channel=3(mask=8), rank=0Sep
22 17:58:47 hostname kernel:
22 sep 17:58:47 hostname kernel: EDAC MC0: CE-rij 0, kanaal 0, label "CPU_SrcID#0_Channel#1_DIMM#0": 1 Onbekende fout(en): geheugen schrobben op FATAL area: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f8000 => socket=0, Channel=1 (mask=2), rank=0Sep
22 17:58:47 hostname kernel:
22 sep 18:00:08 hostname kernel: sbridge: MCE MEMORY ERRORSep
22 18:00:08 hostname kernel: CPU 0: Uitzondering voor machinecontrole: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 hostnaam kernel: TSC 0 ADDR 2763f4000 MISC 90000800081a8c PROCESSOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: MCE MEMORY ERRORSep
22 18:00:08 hostname kernel: CPU 0: Uitzondering voor machinecontrole: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 hostnaam kernel: TSC 0 ADDR 2763f4000 MISC 90000200201a8c PROCESSOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: MCE MEMORY ERRORSep
22 18:00:08 hostname kernel: CPU 0: Uitzondering voor machinecontrole: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 hostnaam kernel: TSC 0 ADDR 2763f4000 MISC 90000400041a8c PROCESSOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: MCE MEMORY ERRORSep
22 18:00:08 hostname kernel: CPU 0: Uitzondering voor machinecontrole: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 hostnaam kernel: TSC 0 ADDR 2763f4000 MISC 90000400041a8c PROCESSOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: MCE MEMORY ERRORSep
22 18:00:08 hostname kernel: CPU 0: Uitzondering voor machinecontrole: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 hostnaam kernel: TSC 0 ADDR 2763f5000 MISC 90000100101a8c PROCESSOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0
原因
Deze fouten treden op wanneer de Error Detection and Correction (EDAC)-module de registers van de chipset leest. Het is mogelijk dat u geen geheugen- of CPU-fouten vindt in het ESM/BMC/IPMI/iDRAC-logboek, omdat de registers slechts eenmaal worden gelezen en, wanneer dit is ingeschakeld, EDAC dit als eerste doet.
解決方法
- Blokkeer de EDAC-driver:
- Geef een lijst met EDAC-modules weer:
- # lsmod | grep -i edac
- Blokkeer de vermeldingen in de uitvoer:
- Bewerk '/etc/modprobe.d/blacklist.conf' met uw favoriete editor
- Voeg de modules onder aan het bestand toe
- Voorbeeld:
- blacklist i7core_edac
- blacklist edac_core
- Geef een lijst met EDAC-modules weer:
- Reboot
- Hardwarediagnose uitvoeren