Chyby EDAC v protokolu Messages v systému RedHat Enterprise Linux (RHEL) a u serverů PowerEdge
概要: Tento článek obsahuje informace o problémech s chybami EDAC v protokolu Messages v systému RedHat Enterprise Linux (RHEL).
現象
Protokol /var/log/messages může obsahovat přibližně toho:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE řádek 0, kanál 0, štítek "CPU_SrcID#0_Channel#1_DIMM#0": 1 Neznámá chyba:memory scrubbing on FATAL area: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f5000 => socket=0, Channel=1(mask=2), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE řádek 1, kanál 0, štítek "CPU_SrcID#0_Channel#2_DIMM#0": 1 Neznámá chyba:Memory scrubing on FATAL area: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f6000 => socket=0, Channel=2(mask=4), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE řádek 1, kanál 0, štítek "CPU_SrcID#0_Channel#2_DIMM#0": 1 Neznámá chyba:Memory scrubing on FATAL area: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f6000 => socket=0, Channel=2(mask=4), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE řádek 2, kanál 0, štítek "CPU_SrcID#0_Channel#3_DIMM#0": 1 Neznámá chyba/chyby: memory scrubbing on FATAL area: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f7000 => socket=0, Channel=3(mask=8), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE řádek 0, kanál 0, štítek "CPU_SrcID#0_Channel#1_DIMM#0": 1 Neznámá chyba:Memory scrubbing on FATAL area: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f8000 => socket=0, Channel=1(mask=2), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 18:00:08 hostname kernel: sbridge: ZPRACOVÁNÍ CHYB
PAMĚTI MCESep 22 18:00:08 jádro s název hostitele: Procesor 0: Výjimka kontroly počítače: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 jádro názvu hostitele: TSC 0 ADDR 2763f4000 MISC 90000080081a8c PROCESSOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: ZPRACOVÁNÍ CHYB
PAMĚTI MCESep 22 18:00:08 jádro s název hostitele: Procesor 0: Výjimka kontroly počítače: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 jádro názvu hostitele: TSC 0 ADDR 2763f4000 MISC 900002000201a8c PROCESSOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: ZPRACOVÁNÍ CHYB
PAMĚTI MCESep 22 18:00:08 jádro s název hostitele: Procesor 0: Výjimka kontroly počítače: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 jádro názvu hostitele: TSC 0 ADDR 2763f4000 MISC 900000400041a8c PROCESSOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: ZPRACOVÁNÍ CHYB
PAMĚTI MCESep 22 18:00:08 jádro s název hostitele: Procesor 0: Výjimka kontroly počítače: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 jádro názvu hostitele: TSC 0 ADDR 2763f4000 MISC 900000400041a8c PROCESSOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: ZPRACOVÁNÍ CHYB
PAMĚTI MCESep 22 18:00:08 jádro s název hostitele: Procesor 0: Výjimka kontroly počítače: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 jádro názvu hostitele: DOPLNĚK TSC 0 2763f5000 MISC 900001000101a8c 0:206d7 TIME 1379887208 SOCKET 0 APIC 0
原因
Tyto chyby vznikají, když modul Error Detection and Correction (EDAC) čte registry z čipové sady. V protokolu ESM/BMC/IPMI/iDRAC nemusíte zaznamenat žádné chyby paměti nebo procesoru, protože registry jsou typu read-once a když jsou aktivní, modul EDAC je získá jako první.
解決方法
- Vyřaďte ovladač edar:
- Vypište si moduly edac:
- # lsmod | grep -i edac
- Přidejte výstup na seznam zakázaných:
- Upravte soubor /etc/modprobe.d/blacklist.conf ve svém oblíbeném editoru.
- Na konec souboru přidejte tyto moduly:
- Příklad:
- blacklist i7core_edac
- blacklist edac_core
- Vypište si moduly edac:
- Reboot
- Spuštění diagnostiky hardwaru