EDAC-fel i meddelandeloggen i RedHat Enterprise Linux (RHEL) och PowerEdge
概要: Den här artikeln innehåller information om problem med EDAC-fel i meddelandeloggen i RedHat Enterprise Linux (RHEL).
現象
Det kan se ut ungefär så här i loggen ”/var/log/messages”:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE-rad 0, kanal 0, etikett "CPU_SrcID#0_Channel#1_DIMM#0": 1 Okända fel: minnesskrubbning i ALLVARLIGT område: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f5000 => socket=0, Channel=1(mask=2), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE-rad 1, kanal 0, etikett "CPU_SrcID#0_Channel#2_DIMM#0": 1 Okända fel: minnesskrubbning i FATAL area: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f6000 => socket=0, Channel=2(mask=4), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE-rad 1, kanal 0, etikett "CPU_SrcID#0_Channel#2_DIMM#0": 1 Okända fel: minnesskrubbning i FATAL area: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f6000 => socket=0, Channel=2(mask=4), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE-rad 2, kanal 0, etikett "CPU_SrcID#0_Channel#3_DIMM#0": 1 Okända fel: minnesskrubbning i ALLVARLIGT område: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f7000 => socket=0, Channel=3(mask=8), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE-rad 0, kanal 0, etikett "CPU_SrcID#0_Channel#1_DIMM#0": 1 Okända fel: minnesskrubbning i ALLVARLIGT område: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f8000 => socket=0, Channel=1(mask=2), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 18:00:08 hostname kernel: sbridge: HANTERING AV MCE MEMORY ERRORSep
22 18:00:08-värdnamnkärnan: PROCESSOR 0: Undantag vid datorkontroll: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 hostname kernel: TSC 0 ADDR 2763f4000 MISC 900000800081a8c PROCESSOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: HANTERING AV MCE MEMORY ERRORSep
22 18:00:08-värdnamnkärnan: PROCESSOR 0: Undantag vid datorkontroll: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 hostname kernel: TSC 0 ADDR 2763f4000 MISC 900002000201a8c PROCESSOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: HANTERING AV MCE MEMORY ERRORSep
22 18:00:08-värdnamnkärnan: PROCESSOR 0: Undantag vid datorkontroll: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 hostname kernel: TSC 0 ADDR 2763f4000 MISC 900000400041a8c PROCESSOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: HANTERING AV MCE MEMORY ERRORSep
22 18:00:08-värdnamnkärnan: PROCESSOR 0: Undantag vid datorkontroll: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 hostname kernel: TSC 0 ADDR 2763f4000 MISC 900000400041a8c PROCESSOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: HANTERING AV MCE MEMORY ERRORSep
22 18:00:08-värdnamnkärnan: PROCESSOR 0: Undantag vid datorkontroll: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 hostname kernel: TSC 0 ADDR 2763f5000 MISC 900001000101a8c PROCESSOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0
原因
Dessa fel uppstår när felsöknings- och korrigeringsmodulen (Error Detection and Correction, EDAC) läser registren från kretsuppsättningen. Du kanske inte märker några minnes- eller processorfel i ESM/BMC/IPMI/iDRAC-loggen eftersom registren bara läses en gång, och när de är aktiverade går de först till EDAC.
解決方法
- Svartlista edac-drivrutinen:
- Gör en lista över edac-moduler:
- # lsmod | grep -i edac
- Svartlista utdatan:
- Redigera ”/etc/modprobe.d/blacklist.conf” med valfri editor
- Lägg till modulerna längst ner i filen
- Exempel:
- blacklist i7core_edac
- blacklist edac_core
- Gör en lista över edac-moduler:
- Omstart
- Kör maskinvarudiagnostik