EDAC-fejl i logfilen "messages" i RedHat Enterprise Linux (RHEL) og PowerEdge
概要: Denne artikel indeholder oplysninger om problemer med EDAC-fejl i logfilen "messages" i RedHat Enterprise Linux (RHEL).
現象
Du kan se noget i retning af dette i logfilen "/var/log/messages":
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE-række 0, kanal 0, etiket "CPU_SrcID#0_Channel#1_DIMM#0": 1 Ukendte fejl: hukommelsesrensning på FATALT område: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f5000 => socket=0, Channel=1(mask=2), rank=0Sep
22 17:58:47 værtsnavn kerne:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE-række 1, kanal 0, etiket "CPU_SrcID#0_Channel#2_DIMM#0": 1 Ukendt fejl: hukommelsesrensning på FATALt område: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f6000 => socket=0, Channel=2(mask=4), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE-række 1, kanal 0, etiket "CPU_SrcID#0_Channel#2_DIMM#0": 1 Ukendt fejl: hukommelsesrensning på FATALt område: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f6000 => socket=0, Channel=2(mask=4), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE-række 2, kanal 0, etiket "CPU_SrcID#0_Channel#3_DIMM#0": 1 Ukendte fejl: hukommelsesrensning på FATALT område: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f7000 => socket=0, Channel=3(mask=8), rank=0Sep
22 17:58:47 værtsnavn kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE-række 0, kanal 0, etiket "CPU_SrcID#0_Channel#1_DIMM#0": 1 Ukendte fejl: hukommelsesrensning på FATALT område: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f8000 => socket=0, Channel=1(mask=2), rank=0Sep
22 17:58:47 værtsnavn kernel:
Sep 22 18:00:08 hostname kernel: sbridge: HÅNDTERING AF MCE-HUKOMMELSESFEJLSep
22 18:00:08 værtsnavnkerne: CPU 0: Maskinkontrolundtagelse: 0 bank 10: 8c00004d000800c2Sep
22 18:00:08 hostname kernel: TSC 0 ADDR 2763f4000 MISC 900000800081a8c PROCESSOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: HÅNDTERING AF MCE-HUKOMMELSESFEJLSep
22 18:00:08 værtsnavnkerne: CPU 0: Maskinkontrolundtagelse: 0 bank 10: 8c00004d000800c2Sep
22 18:00:08 hostname kernel: TSC 0 ADDR 2763f4000 MISC 900002000201a8c PROCESSOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: HÅNDTERING AF MCE-HUKOMMELSESFEJLSep
22 18:00:08 værtsnavnkerne: CPU 0: Maskinkontrolundtagelse: 0 bank 10: 8c00004d000800c2Sep
22 18:00:08 hostname kernel: TSC 0 ADDR 2763f4000 MISC 900000400041a8c PROCESSOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: HÅNDTERING AF MCE-HUKOMMELSESFEJLSep
22 18:00:08 værtsnavnkerne: CPU 0: Maskinkontrolundtagelse: 0 bank 10: 8c00004d000800c2Sep
22 18:00:08 hostname kernel: TSC 0 ADDR 2763f4000 MISC 900000400041a8c PROCESSOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: HÅNDTERING AF MCE-HUKOMMELSESFEJLSep
22 18:00:08 værtsnavnkerne: CPU 0: Maskinkontrolundtagelse: 0 bank 10: 8c00004d000800c2Sep
22 18:00:08 hostname kernel: TSC 0 ADDR 2763f5000 MISC 900001000101a8c PROCESSOR 0:206d7 TIME 1379887208 SOKKEL 0 APIC 0
原因
Disse fejl opstår, når EDAC-modulet (Error Detection and Correction) læser registrene fra chipsættet. Du bemærker muligvis ingen hukommelses- eller CPU-fejl i logfilen ESM/BMC/IPMI/iDRAC, fordi registrene kun kan læses én gang, og når de aktiveres, vil EDAC finde dem først.
解決方法
- Sortlist edac-driveren:
- Vis edac-moduler:
- # lsmod | grep -i edac
- Tag resultaterne, og sortlist dem:
- Rediger "/etc/modprobe.d/blacklist.conf"' med dit foretrukne redigeringsprogram
- Tilføj modulerne nederst i filen
- Eksempel:
- blacklist i7core_edac
- blacklist edac_core
- Vis edac-moduler:
- Reboot
- Kør hardwarediagnosticering