Erreurs EDAC dans le journal de « messages » dans Red Hat Enterprise Linux (RHEL) et PowerEdge
概要: Cet article fournit des informations sur les problèmes liés aux erreurs EDAC dans le journal de « messages » dans Red Hat Enterprise Linux (RHEL).
現象
Un message similaire à celui qui suit peut s’afficher dans votre journal « /var/log/messages » :
Sep 22 17:58:47 hostname kernel: EDAC MC0: Ligne CE 0, canal 0, libellé « CPU_SrcID#0_Channel#1_DIMM#0 »: 1 Erreur(s) inconnue(s): nettoyage de la mémoire sur la zone FATAL: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f5000 => socket=0, Channel=1(mask=2), rank=0Sep
22 17:58:47 hostname kernel:
sep 22 17:58:47 hostname kernel: EDAC MC0: Ligne CE 1, canal 0, libellé « CPU_SrcID#0_Channel#2_DIMM#0 »: 1 Erreur(s) inconnue(s): nettoyage de la mémoire sur la zone FATAL: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f6000 => socket=0, Channel=2(mask=4), rank=0Sep
22 17:58:47 hostname kernel:
sep 22 17:58:47 hostname kernel: EDAC MC0: Ligne CE 1, canal 0, libellé « CPU_SrcID#0_Channel#2_DIMM#0 »: 1 Erreur(s) inconnue(s): nettoyage de la mémoire sur la zone FATAL: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f6000 => socket=0, Channel=2(mask=4), rank=0Sep
22 17:58:47 hostname kernel:
sep 22 17:58:47 hostname kernel: EDAC MC0: Ligne CE 2, canal 0, libellé « CPU_SrcID#0_Channel#3_DIMM#0 »: 1 Erreur(s) inconnue(s): nettoyage de la mémoire sur la zone FATAL: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f7000 => socket=0, Channel=3(mask=8), rank=0Sep
22 17:58:47 hostname kernel:
sep 22 17:58:47 hostname kernel: EDAC MC0: Ligne CE 0, canal 0, libellé « CPU_SrcID#0_Channel#1_DIMM#0 »: 1 Erreur(s) inconnue(s): nettoyage de la mémoire sur la zone FATAL: cpu=0 Err=0008:00c2 (ch=2), addr = 0x1b63f8000 => socket=0, Channel=1(mask=2), rank=0Sep
22 17:58:47 hostname kernel:
sep 22 18:00:08 hostname kernel: sbridge: GESTION DE MCE MEMORY ERRORSep
22 18:00:08 hostname kernel: Processeur 0: Exception de vérification de la machine: 0 Banque 10: 8c00004d000800c2Sep
22 18:00:08 hostname kernel: TSC 0 ADDR 2763f4000 MISC 90000080081a8c PROCESSEUR 0:206d7 HEURE 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: GESTION DE MCE MEMORY ERRORSep
22 18:00:08 hostname kernel: Processeur 0: Exception de vérification de la machine: 0 Banque 10: 8c00004d000800c2Sep
22 18:00:08 hostname kernel: TSC 0 ADDR 2763f4000 MISC 900002000201a8c PROCESSEUR 0:206d7 TIME 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: GESTION DE MCE MEMORY ERRORSep
22 18:00:08 hostname kernel: Processeur 0: Exception de vérification de la machine: 0 Banque 10: 8c00004d000800c2Sep
22 18:00:08 hostname kernel: TSC 0 ADDR 2763f4000 MISC 900000400041a8c PROCESSEUR 0:206d7 HEURE 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: GESTION DE MCE MEMORY ERRORSep
22 18:00:08 hostname kernel: Processeur 0: Exception de vérification de la machine: 0 Banque 10: 8c00004d000800c2Sep
22 18:00:08 hostname kernel: TSC 0 ADDR 2763f4000 MISC 900000400041a8c PROCESSEUR 0:206d7 HEURE 1379887208 SOCKET 0 APIC 0Sep
22 18:00:08 hostname kernel: sbridge: GESTION DE MCE MEMORY ERRORSep
22 18:00:08 hostname kernel: Processeur 0: Exception de vérification de la machine: 0 Banque 10: 8c00004d000800c2Sep
22 18:00:08 hostname kernel: TSC 0 ADDR 2763f5000 MISC 900001000101a8c PROCESSEUR 0:206d7 TEMPS 1379887208 SOCKET 0 APIC 0
原因
Ces erreurs se produisent lorsque le module EDAC (détection et correction des erreurs) lit les registres à partir du chipset. Il est possible qu’aucune erreur de mémoire ou de processeur ne s’affiche dans le journal ESM/BMC/IPMI/iDRAC, car les registres sont en lecture seule et, lorsque l’option est activée, le module EDAC les obtient en premier.
解決方法
- Mettez le pilote edac sur liste noire :
- Répertoriez les modules edac :
- # lsmod | grep -i edac
- Capturez le résultat et mettez-le sur liste noire :
- Modifiez « /etc/modprobe.d/blacklist.conf » à l’aide de l’éditeur de votre choix.
- Ajoutez les modules à la fin du fichier
- Exemple :
- blacklist i7core_edac
- blacklist edac_core
- Répertoriez les modules edac :
- Reboot
- Exécuter un test de diagnostic du matériel