Errori EDAC nel registro 'messages' in RedHat Enterprise Linux (RHEL) e PowerEdge
概要: In questo articolo vengono fornite informazioni sui problemi relativi agli errori EDAC nel registro 'messages' in RedHat Enterprise Linux (RHEL).
現象
È possibile visualizzare un testo simile al seguente nel registro '/var/log/messages':
Sep 22 17:58:47 hostname kernel: EDAC MC0: Riga CE 0, canale 0, etichetta "CPU_SrcID#0_Channel#1_DIMM#0": 1 Errore sconosciuto: scrubbing della memoria sull'area FATAL: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f5000 => socket=0, Canale=1(mask=2), rank=0Sep
22 17:58:47 hostname kernel:
Set 22 17:58:47 hostname kernel: EDAC MC0: Riga CE 1, canale 0, etichetta "CPU_SrcID#0_Channel#2_DIMM#0": 1 Errore sconosciuto: scrubbing della memoria sull'area FATAL: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f6000 => socket=0, Channel=2(mask=4), rank=0Sep
22 17:58:47 hostname kernel:
Set 22 17:58:47 hostname kernel: EDAC MC0: Riga CE 1, canale 0, etichetta "CPU_SrcID#0_Channel#2_DIMM#0": 1 Errore sconosciuto: scrubbing della memoria sull'area FATAL: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f6000 => socket=0, Channel=2(mask=4), rank=0Sep
22 17:58:47 hostname kernel:
Set 22 17:58:47 hostname kernel: EDAC MC0: Riga CE 2, canale 0, etichetta "CPU_SrcID#0_Channel#3_DIMM#0": 1 Errore sconosciuto: scrubbing della memoria sull'area FATAL: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f7000 => socket=0, Canale=3(mask=8), rank=0Sep
22 17:58:47 hostname kernel:
Set 22 17:58:47 hostname kernel: EDAC MC0: Riga CE 0, canale 0, etichetta "CPU_SrcID#0_Channel#1_DIMM#0": 1 Errore sconosciuto: scrubbing della memoria sull'area FATAL: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f8000 => socket=0, Canale=1(mask=2), rank=0Sep
22 17:58:47 hostname kernel:
Set 22 18:00:08 hostname kernel: sbridge: GESTIONE ERRORE DI MEMORIA
MCE Kernel 22 18:00:08 nome host: CPU 0: Eccezione controllo computer: 0 banca 10: 8c00004d000800c2Sep
22 18:00:08 hostname kernel: TSC 0 ADDR 2763f4000 MISC 90000080081a8c PROCESSOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: GESTIONE ERRORE DI MEMORIA
MCE Kernel 22 18:00:08 nome host: CPU 0: Eccezione controllo computer: 0 banca 10: 8c00004d000800c2Sep
22 18:00:08 hostname kernel: TSC 0 ADDR 2763f4000 MISC 900002000201a8c PROCESSOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: GESTIONE ERRORE DI MEMORIA
MCE Kernel 22 18:00:08 nome host: CPU 0: Eccezione controllo computer: 0 banca 10: 8c00004d000800c2Sep
22 18:00:08 hostname kernel: TSC 0 ADDR 2763f4000 MISC 90000400041a8c PROCESSOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: GESTIONE ERRORE DI MEMORIA
MCE Kernel 22 18:00:08 nome host: CPU 0: Eccezione controllo computer: 0 banca 10: 8c00004d000800c2Sep
22 18:00:08 hostname kernel: TSC 0 ADDR 2763f4000 MISC 90000400041a8c PROCESSOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: GESTIONE ERRORE DI MEMORIA
MCE Kernel 22 18:00:08 nome host: CPU 0: Eccezione controllo computer: 0 banca 10: 8c00004d000800c2Sep
22 18:00:08 hostname kernel: TSC 0 ADDR 2763f5000 MISC 900001000101a8c PROCESSORE 0:206d7 TIME 1379887208 SOCKET 0 APIC 0
原因
Questi errori si verificano quando il modulo Error Detection and Correction (EDAC) legge i registri dal chipset. L'utente potrebbe non notare eventuali errori di memoria o CPU nel registro ESM/BMC/IPMI/iDRAC perché i registri vengono letti una sola volta e, se abilitato, EDAC li otterrà per primo.
解決方法
- Aggiungere il driver edac alla lista nera:
- Elencare i moduli edac:
- # lsmod | grep -i edac
- Inserire l'output nella lista nera:
- Modificare '/etc/modprobe.d/blacklist.conf' con l'editor preferito
- Aggiungere i moduli alla fine del file
- Esempio:
- blacklist i7core_edac
- blacklist edac_core
- Elencare i moduli edac:
- Riavvio
- Eseguire il controllo di diagnostica dell'hardware