RedHat Enterprise Linuxin (RHEL) ja PowerEdgen sanomalokin sisältämät EDAC-virheet
概要: Tässä artikkelissa käsitellään RedHat Enterprise Linuxin (RHEL) sanomalokin sisältämiä EDAC-virheitä.
現象
/var/log/messages-lokissa on tämänkaltaisia sanomia:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE-rivi 0, kanava 0, merkintä "CPU_SrcID#0_Channel#1_DIMM#0": 1 Tuntematon virhe(t): muistin tyhjennys FATAL-alueella: cpu=0 Err=0008:00c2 (ch=2), lisälaite = 0x1b63f5000 => socket=0, Channel=1(mask=2), Rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE-rivi 1, kanava 0, merkintä "CPU_SrcID#0_Channel#2_DIMM#0": 1 Tuntematon virhe(t): muistin tyhjennys FATAL-alueella: cpu=0 Err=0008:00c2 (ch=2), lisälaite = 0x1b63f6000 => socket=0, Channel=2(mask=4), Rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE-rivi 1, kanava 0, merkintä "CPU_SrcID#0_Channel#2_DIMM#0": 1 Tuntematon virhe(t): muistin tyhjennys FATAL-alueella: cpu=0 Err=0008:00c2 (ch=2), lisälaite = 0x1b63f6000 => socket=0, Channel=2(mask=4), Rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE-rivi 2, kanava 0, merkintä "CPU_SrcID#0_Channel#3_DIMM#0": 1 Tuntematon virhe(t): muistin tyhjennys FATAL-alueella: cpu=0 Err=0008:00c2 (ch=2), lisälaite = 0x1b63f7000 => socket=0, Channel=3(mask=8), Rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 17:58:47 hostname kernel: EDAC MC0: CE-rivi 0, kanava 0, merkintä "CPU_SrcID#0_Channel#1_DIMM#0": 1 Tuntematon virhe(t): muistin tyhjennys FATAL-alueella: cpu=0 Err=0008:00c2 (ch=2), lisälaite = 0x1b63f8000 => socket=0, Channel=1(mask=2), Rank=0Sep
22 17:58:47 hostname kernel:
Sep 22 18:00:08 hostname kernel: sbridge: HANDLING MCE MEMORY ERRORSep
22 18:00:08 hostname kernel: Suoritin 0: Koneen tarkistuksen poikkeus: 0 Pankki 10: 8c00004d000800c2Sep
22 18:00:08 hostname kernel: TSC 0 ADDR 2763f4000 MISC 90000080081a8c -SUORITin 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 isäntänimi ydin: sbridge: HANDLING MCE MEMORY ERRORSep
22 18:00:08 hostname kernel: Suoritin 0: Koneen tarkistuksen poikkeus: 0 Pankki 10: 8c00004d000800c2Sep
22 18:00:08 hostname kernel: TSC 0 ADDR 2763f4000 MISC 900002000201a8c -SUORItin 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 isäntänimi ydin: sbridge: HANDLING MCE MEMORY ERRORSep
22 18:00:08 hostname kernel: Suoritin 0: Koneen tarkistuksen poikkeus: 0 Pankki 10: 8c00004d000800c2Sep
22 18:00:08 hostname kernel: TSC 0 ADDR 2763f4000 MISC 9000040041a8c -SUORItin 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 isäntänimi ydin: sbridge: HANDLING MCE MEMORY ERRORSep
22 18:00:08 hostname kernel: Suoritin 0: Koneen tarkistuksen poikkeus: 0 Pankki 10: 8c00004d000800c2Sep
22 18:00:08 hostname kernel: TSC 0 ADDR 2763f4000 MISC 9000040041a8c -SUORItin 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 isäntänimi ydin: sbridge: HANDLING MCE MEMORY ERRORSep
22 18:00:08 hostname kernel: Suoritin 0: Koneen tarkistuksen poikkeus: 0 Pankki 10: 8c00004d000800c2Sep
22 18:00:08 hostname kernel: TSC 0 ADDR 2763f5000 MISC 90000100101a8c -SUORITIN 0:206d7 TIME 1379887208 SOCKET 0 APIC 0
原因
Näitä virheitä ilmenee, kun virheiden tunnistus- ja korjausmoduuli (EDAC, Error Detection and Correction) lukee piirisarjan rekistereitä. ESM/BMC/IPMI/iDRAC-lokissa ei välttämättä näy muistin tai suorittimen virheitä, koska rekisterit luetaan yhden kerran ja EDAC huomaa ne ensin, kun se on otettu käyttöön.
解決方法
- Lisää EDAC-ohjain kiellettyjen luetteloon:
- Laadi EDAC-moduulien luettelo:
- # lsmod | grep -i edac
- Lisää tulokset kiellettyjen luetteloon:
- Muokkaa /etc/modprobe.d/blacklist.conf-tiedoston sisältöä haluamallasi muokkausohjelmalla.
- Lisää moduulit tiedoston loppuun.
- Esimerkki:
- Lisää i7core_edac kiellettyjen luetteloon.
- Lisää edac_core kiellettyjen luetteloon.
- Laadi EDAC-moduulien luettelo:
- Uudelleenkäynnistys
- Suorita laitteiston diagnostiikka