These errors occur when the Error Detection and Correction (EDAC) module reads the registers from the chipset. You may not notice any memory or CPU errors in the ESM/BMC/IPMI/iDRAC log because the registers are read-once and when enabled, EDAC will get them first.
Resolution :
Blacklist the edac driver :
List edac modules :
# lsmod | grep -i edac
Take the output and blacklist them :
Edit '/etc/modprobe.d/blacklist.conf' with your favorite editor
Monica_Yang
3 Apprentice
•
1.2K 消息
0
2018年9月9日 22:00
这个报错貌似系统问题啊,不是硬件报错。
zlffcn
1 Rookie
•
30 消息
0
2018年9月10日 08:00
EDAC,据我所知是Linux对内存的监控模块,只有检测硬件系统出错才会记录到这种日志
截图中的报警代表内存发生了错误,但是现代的 ECC REG 内存具有纠错功能,所以尽管报错了,服务器可能还能保持工作
我比较担忧的是,这台设备我们已经更换了两次内存了,之前是有两个槽内存报错,更换后 B1 槽还是问题依然
但是iDRAC中显示正常?
我都无法确认,究竟是我们运气不好,连续两条内存都是有问题的(机率应该不大),其他硬件问题(主板?CPU?),还是 固件和硬件的兼容问题。
恳请官方给个靠谱的答案,
不要忽悠我们什么关闭edac之类的操作,要是这么忽悠,干脆跟我说把电源拔了供起来算了
Monica_Yang
3 Apprentice
•
1.2K 消息
0
2018年9月16日 20:00
Hi, EDAC的这个报错并不是之硬件真的有问题哈,我们目前的建议解决方案是把EDAC驱动列入黑名单,然后重启。下面是英文原版的解释,暂时没有中文版,我翻译过来也怕有歧义,所以您参考一下,假如真的担心硬件方面有问题,您可以收集一份日志过来我确认一下硬件层面的信息。
These errors occur when the Error Detection and Correction (EDAC) module reads the registers from the chipset. You may not notice any memory or CPU errors in the ESM/BMC/IPMI/iDRAC log because the registers are read-once and when enabled, EDAC will get them first.
Resolution :
收集日志请参考:
Windows环境下通过SAE收集日志的操作方法
www.dell.com/support/article/sln305291/zh
Linux环境下通过SAE收集日志的操作方法
www.dell.com/support/article/sln305719/zh
通过iDRAC收集TSR日志的操作方法(12/13G)
www.dell.com/support/article/sln305282/zh
通过Lifecycle收集TSR日志的操作方法(12/13G)
www.dell.com/support/article/sln305280/zh
Windows收集DSET日志的方法-V3.7
Link broken
RH Linux收集DSET日志的方法-V3.7
www.dell.com/support/article/sln305293/zh
(已编辑)