Ошибки EDAC в журнале сообщений в Red Hat Enterprise Linux (RHEL) и PowerEdge
概要: В этой статье содержится информация об ошибках EDAC в журнале сообщений в Red Hat Enterprise Linux (RHEL).
現象
В журнале «/var/log/messages» можно увидеть следующие сообщения:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE строка 0, канал 0, метка «CPU_SrcID#0_Channel#1_DIMM#0»: 1 Неизвестные ошибки: очистка памяти в неустранимой области: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f5000 => socket=0, Channel=1(mask=2), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: Ce row 1, channel 0, label "CPU_SrcID#0_Channel#2_DIMM#0": 1 Неизвестные ошибки: очистка памяти в неустранимой области: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f6000 => socket=0, Channel=2(mask=4), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: Ce row 1, channel 0, label "CPU_SrcID#0_Channel#2_DIMM#0": 1 Неизвестные ошибки: очистка памяти в неустранимой области: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f6000 => socket=0, Channel=2(mask=4), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: Ce row 2, channel 0, label "CPU_SrcID#0_Channel#3_DIMM#0": 1 Неизвестные ошибки: очистка памяти в неустранимой области: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f7000 => socket=0, Channel=3 (mask=8), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE строка 0, канал 0, метка «CPU_SrcID#0_Channel#1_DIMM#0»: 1 Неизвестные ошибки: очистка памяти в неустранимой области: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f8000 => socket=0, Channel=1(mask=2), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 18:00:08 hostname kernel: sbridge: ОБРАЩЕНИЕ С ОШИБКАМИ ПАМЯТИ MCE22
18:00:08 ядро имени хоста: ЦП 0: Исключение проверки компьютера: 0 Банк 10. 8c00004d000800c2Ъядерное
имя хоста 22 18:00:08: TSC 0 ADDR 2763f4000 MISC 9000080081a8c ПРОЦЕССОР 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: ОБРАЩЕНИЕ С ОШИБКАМИ ПАМЯТИ MCE22
18:00:08 ядро имени хоста: ЦП 0: Исключение проверки компьютера: 0 Банк 10. 8c00004d000800c2Ъядерное
имя хоста 22 18:00:08: TSC 0 ADDR 2763f4000 MISC 900002000201a8c ПРОЦЕССОР 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Ep
22 18:00:08 имя хоста ядро: sbridge: ОБРАЩЕНИЕ С ОШИБКАМИ ПАМЯТИ MCE22
18:00:08 ядро имени хоста: ЦП 0: Исключение проверки компьютера: 0 Банк 10. 8c00004d000800c2Ъядерное
имя хоста 22 18:00:08: TSC 0 ADDR 2763f4000 MISC 90000040041a8c ПРОЦЕССОР 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: ОБРАЩЕНИЕ С ОШИБКАМИ ПАМЯТИ MCE22
18:00:08 ядро имени хоста: ЦП 0: Исключение проверки компьютера: 0 Банк 10. 8c00004d000800c2Ъядерное
имя хоста 22 18:00:08: TSC 0 ADDR 2763f4000 MISC 90000040041a8c ПРОЦЕССОР 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: ОБРАЩЕНИЕ С ОШИБКАМИ ПАМЯТИ MCE22
18:00:08 ядро имени хоста: ЦП 0: Исключение проверки компьютера: 0 Банк 10. 8c00004d000800c2Ъядерное
имя хоста 22 18:00:08: TSC 0 ADDR 2763f5000 MISC 900001000101a8c, 0:206d7 ВРЕМЯ 1379887208 SOCKET 0 APIC 0
原因
Эти ошибки возникают, когда модуль EDAC (Error Detection and Correction) считывает регистры из набора микросхем. Вы можете не обнаружить никаких ошибок памяти и ЦП в журналах ESM/BMC/IPMI/iDRAC, так как регистры считываются только один раз, и если они включены, модуль EDAC считывает их первым.
解決方法
- Внесите в черный список драйвер EDAC:
- Получите список модулей EDAC:
- # lsmod | grep -i edac
- Добавьте выходные данные команды в черный список:
- Откройте файл «/etc/modprobe.d/black.conf» в подходящем редакторе.
- Добавьте модули в конец файла.
- Пример:
- blacklist i7core_edac
- blacklist edac_core
- Получите список модулей EDAC:
- Перезагрузки
- Выполнение аппаратной диагностики