Błędy EDAC w dzienniku „messages” w systemie RedHat Enterprise Linux (RHEL) i na serwerze PowerEdge
概要: Ten artykuł zawiera informacje na temat problemów z błędami EDAC w dzienniku „messages” w systemie RedHat Enterprise Linux (RHEL).
現象
W dzienniku „/var/log/messages” może się pojawić następujący wpis:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE wiersz 0, kanał 0, etykieta "CPU_SrcID#0_Channel#1_DIMM#0": 1 Nieznane błędy: czyszczenie pamięci w obszarze FATAL: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f5000 => socket=0, Channel=1 (mask=2), rank=0Sep
22 17:58:47 nazwa_hosta jądro:
22 września 17:58:47 nazwa_hosta jądro: EDAC MC0: CE wiersz 1, kanał 0, etykieta "CPU_SrcID#0_Channel#2_DIMM#0": 1 Nieznane błędy: czyszczenie pamięci w obszarze FATAL: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f6000 => socket=0, Channel=2(mask=4), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE wiersz 1, kanał 0, etykieta "CPU_SrcID#0_Channel#2_DIMM#0": 1 Nieznane błędy: czyszczenie pamięci w obszarze FATAL: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f6000 => socket=0, Channel=2(mask=4), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE wiersz 2, kanał 0, etykieta "CPU_SrcID#0_Channel#3_DIMM#0": 1 Nieznane błędy: czyszczenie pamięci w obszarze FATAL: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f7000 => socket=0, Channel=3 (mask=8), rank=0Sep
22 17:58:47 nazwa_hosta jądro:
22 września 17:58:47 nazwa_hosta jądro: EDAC MC0: CE wiersz 0, kanał 0, etykieta "CPU_SrcID#0_Channel#1_DIMM#0": 1 Nieznane błędy: czyszczenie pamięci w obszarze FATAL: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f8000 => socket=0, Channel=1(mask=2), rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 18:00:08 hostname kernel: sbridge: OBSŁUGA BŁĘDÓW
PAMIĘCI MCE 22 18:00:08 nazwa_hosta: Procesor 0: Wyjątek sprawdzania komputera: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 nazwa hosta jądra: TSC 0 ADDR 2763f4000 MISC 900000800081a8c 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: mostek: OBSŁUGA BŁĘDÓW
PAMIĘCI MCE 22 18:00:08 nazwa_hosta: Procesor 0: Wyjątek sprawdzania komputera: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 nazwa hosta jądra: PROCESOR TSC 0 ADDR 2763f4000 MISC 900002000201a8c 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: mostek: OBSŁUGA BŁĘDÓW
PAMIĘCI MCE 22 18:00:08 nazwa_hosta: Procesor 0: Wyjątek sprawdzania komputera: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 nazwa hosta jądra: PROCESOR TSC 0 ADDR 2763f4000 MISC 900000400041a8c 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: mostek: OBSŁUGA BŁĘDÓW
PAMIĘCI MCE 22 18:00:08 nazwa_hosta: Procesor 0: Wyjątek sprawdzania komputera: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 nazwa hosta jądra: PROCESOR TSC 0 ADDR 2763f4000 MISC 900000400041a8c 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: mostek: OBSŁUGA BŁĘDÓW
PAMIĘCI MCE 22 18:00:08 nazwa_hosta: Procesor 0: Wyjątek sprawdzania komputera: 0 Bank 10: 8c00004d000800c2Sep
22 18:00:08 nazwa hosta jądra: PROCESOR TSC 0 ADDR 2763f5000 MISC 900001000101a8c 0:206d7 CZAS 1379887208 SOCKET 0 APIC 0
原因
Błędy te występują, gdy moduł wykrywania i korekcji błędów (EDAC) odczytuje rejestry z chipsetu. Błędy modułów pamięci lub procesorów w dzienniku ESM/BMC/IPMI/iDRAC mogą być niezauważone, ponieważ rejestry są odczytywane jednokrotnie i po włączeniu EDAC odczytuje je w pierwszej kolejności.
解決方法
- Wpisz sterownik edac na listę zabronionych:
- Wyświetl moduły EDAC:
- # lsmod | grep -i edac
- Sprawdź wynik i wpisz na listę zabronionych następujące dane:
- Edytuj „/etc/modprobe.d/blacklist.conf” z użyciem preferowanego edytora
- Dodaj moduły na końcu pliku
- Przykład:
- blacklist i7core_edac
- blacklist edac_core
- Wyświetl moduły EDAC:
- Ponowne uruchomienie
- Uruchom diagnostykę sprzętu