EDAC-feil i «messages»-loggen (meldinger) i Red Hat Enterprise Linux (RHEL) og PowerEdge
概要: Denne artikkelen inneholder informasjon om problemer med EDAC-feil i «messages»-loggen (meldinger) i Red Hat Enterprise Linux (RHEL).
現象
Du kan se noe som ligner på følgende i loggen «/var/log/messages»:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE-rad 0, kanal 0, etikett «CPU_SrcID#0_Channel#1_DIMM#0»: 1 Ukjent feil: minneskrubbing på FATAL-området: cpu=0 err=0008:00c2 (ch=2), addr = 0x1b63f5000 => socket=0, Kanal = 1 (maske = 2), nivå = 0Sep
22 17:58:47 vertsnavnkjerne:
22. september 17:58:47 vertsnavnkjerne: EDAC MC0: CE-rad 1, kanal 0, etikett «CPU_SrcID#0_Channel#2_DIMM#0»: 1 Ukjent feil: minneskrubbing på FATAL-området: cpu=0 err=0008:00c2 (ch=2), addr = 0x1b63f6000 => socket=0, Kanal= 2 (maske = 4), nivå = 0Sep
22 17:58:47 vertsnavnkjerne:
22. september 17:58:47 vertsnavnkjerne: EDAC MC0: CE-rad 1, kanal 0, etikett «CPU_SrcID#0_Channel#2_DIMM#0»: 1 Ukjent feil: minneskrubbing på FATAL-området: cpu=0 err=0008:00c2 (ch=2), addr = 0x1b63f6000 => socket=0, Kanal= 2 (maske = 4), nivå = 0Sep
22 17:58:47 vertsnavnkjerne:
22. september 17:58:47 vertsnavnkjerne: EDAC MC0: CE-rad 2, kanal 0, etikett «CPU_SrcID#0_Channel#3_DIMM#0»: 1 Ukjent feil: minneskrubbing på FATAL-området: cpu=0 err=0008:00c2 (ch=2), addr = 0x1b63f7000 => socket=0, Kanal= 3 (maske = 8), nivå = 0Sep
22 17:58:47 vertsnavnkjerne:
22. september 17:58:47 vertsnavnkjerne: EDAC MC0: CE-rad 0, kanal 0, etikett «CPU_SrcID#0_Channel#1_DIMM#0»: 1 Ukjent feil: minneskrubbing på FATAL-området: cpu=0 err=0008:00c2 (ch=2), addr = 0x1b63f8000 => socket=0, Channel=1(mask=2), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 18:00:08 vertsnavn kjerne: sbridge: HÅNDTERING AV MCE-MINNEFEIL
22 18:00:08 vertsnavnkjerne: CPU 0: Maskinkontrollunntak: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 vertsnavnkjerne: TSC 0 ADDR 2763f4000 MISC 90000800081a8c-PROSESSOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 vertsnavnkjerne: sbridge: HÅNDTERING AV MCE-MINNEFEIL
22 18:00:08 vertsnavnkjerne: CPU 0: Maskinkontrollunntak: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 vertsnavnkjerne: TSC 0 ADDR 2763f4000 MISC 900002000201a8c-PROSESSOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 vertsnavnkjerne: sbridge: HÅNDTERING AV MCE-MINNEFEIL
22 18:00:08 vertsnavnkjerne: CPU 0: Maskinkontrollunntak: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 vertsnavnkjerne: TSC 0 ADDR 2763f4000 MISC 90000040041a8c-PROSESSOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 vertsnavnkjerne: sbridge: HÅNDTERING AV MCE-MINNEFEIL
22 18:00:08 vertsnavnkjerne: CPU 0: Maskinkontrollunntak: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 vertsnavnkjerne: TSC 0 ADDR 2763f4000 MISC 90000040041a8c-PROSESSOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 vertsnavnkjerne: sbridge: HÅNDTERING AV MCE-MINNEFEIL
22 18:00:08 vertsnavnkjerne: CPU 0: Maskinkontrollunntak: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 vertsnavnkjerne: TSC 0 ADDR 2763f5000 MISC 90000100101a8C-PROSESSOR 0:206d7- 1379887208 SOCKET 0 APIC 0
原因
Disse feilene oppstår når modulen for feilsøking og feilretting (EDAC) leser registrene fra brikkesettet. Det er mulig at du ikke oppdager minne- eller CPU-feil i loggen ESM/BMC/IPMI/iDRAC ettersom registrene bare leses én gang, og når de er aktivert, vil EDAC få dem først.
解決方法
- Svarteliste edac-driveren:
- Oppgi edac-moduler:
- # lsmod | grep -i edac
- Ta utdataene og svartelist dem:
- Rediger «/etc/modprobe.d/blacklist.conf» med redigeringsprogrammet du liker best
- Legg til modulene nederst i filen
- Eksempel:
- blacklist i7core_edac
- blacklist edac_core
- Oppgi edac-moduler:
- Reboot
- Kjøre diagnostikk av maskinvaren