Erros de EDAC no registro 'messages' no RedHat Enterprise Linux (RHEL) e no PowerEdge
概要: Este artigo fornece informações sobre problemas com erros de EDAC no registro 'messages' no RedHat Enterprise Linux (RHEL).
現象
Uma mensagem deste tipo pode ser exibida no registro '/var/log/messages':
Sep 22 17:58:47 hostname kernel: EDAC MC0: Linha 0 do CE, canal 0, etiqueta "CPU_SrcID#0_Channel#1_DIMM#0": 1 Erro(s) desconhecido(s): depuração de memória na área FATAL: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f5000 => socket=0, Channel=1(mask=2), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: Linha CE 1, canal 0, etiqueta "CPU_SrcID#0_Channel#2_DIMM#0": 1 Erro(s) desconhecido(s): depuração de memória na área FATAL: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f6000 => socket=0, Channel=2(mask=4), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: Linha CE 1, canal 0, etiqueta "CPU_SrcID#0_Channel#2_DIMM#0": 1 Erro(s) desconhecido(s): depuração de memória na área FATAL: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f6000 => socket=0, Channel=2(mask=4), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: Linha 2 do CE, canal 0, etiqueta "CPU_SrcID#0_Channel#3_DIMM#0": 1 Erro(s) desconhecido(s): depuração de memória na área FATAL: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f7000 => socket=0, Channel=3(mask=8), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: Linha 0 do CE, canal 0, etiqueta "CPU_SrcID#0_Channel#1_DIMM#0": 1 Erro(s) desconhecido(s): depuração da memória na área FATAL: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f8000 => socket=0, Channel=1(mask=2), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 18:00:08 hostname kernel: sbridge: MANUSE MCE MEMORY ERRORSep
22 18:00:08 hostname kernel: CPU 0: Exceção de verificação de máquina: 0 Banco 10: 8c00004d000800c2Sep 22
18:00:08 hostname kernel: TSC 0 ADDR 2763f4000 MISC 90000800081a8c PROCESSADOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: MANUSE MCE MEMORY ERRORSep
22 18:00:08 hostname kernel: CPU 0: Exceção de verificação de máquina: 0 Banco 10: 8c00004d000800c2Sep 22
18:00:08 hostname kernel: TSC 0 ADDR 2763f4000 MISC 900002000201a8c PROCESSADOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: MANUSE MCE MEMORY ERRORSep
22 18:00:08 hostname kernel: CPU 0: Exceção de verificação de máquina: 0 Banco 10: 8c00004d000800c2Sep 22
18:00:08 hostname kernel: TSC 0 ADDR 2763f4000 MISC 90000040041a8c PROCESSADOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: MANUSE MCE MEMORY ERRORSep
22 18:00:08 hostname kernel: CPU 0: Exceção de verificação de máquina: 0 Banco 10: 8c00004d000800c2Sep 22
18:00:08 hostname kernel: TSC 0 ADDR 2763f4000 MISC 90000040041a8c PROCESSADOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: MANUSE MCE MEMORY ERRORSep
22 18:00:08 hostname kernel: CPU 0: Exceção de verificação de máquina: 0 Banco 10: 8c00004d000800c2Sep 22
18:00:08 hostname kernel: TSC 0 ADDR 2763f5000 MISC 900001000101a8c PROCESSADOR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0
原因
Esses erros ocorrem quando o módulo Error Detection and Correction (EDAC) lê os registros do chipset. Você pode não notar nenhum erro de memória ou CPU no registro ESM/BMC/IPMI/iDRAC porque os registros são de leitura única e, quando habilitados, o EDAC os obtém primeiro.
解決方法
- Coloque o driver edac na lista de bloqueio:
- Liste os módulos edac:
- # lsmod | grep -i edac
- Obtenha os resultados e coloque-os na lista de bloqueio:
- Edite '/etc/modprobe.d/blacklist.conf' com seu editor favorito
- Adicione os módulos na parte inferior do arquivo
- Por exemplo:
- blacklist i7core_edac
- blacklist edac_core
- Liste os módulos edac:
- Reinicialize
- Executar diagnósticos de hardware