未解决

此帖子已超过 5 年

1 Rookie

 • 

30 消息

2907

2018年9月9日 19:00

Dell R730,HANDLING MCE MEMORY ERROR

近日Dell R730 的Linux系统日常报 HANDLING MCE MEMORY ERROR

 

Snipaste_2018-09-10_10-19-01.jpg

但是 iDRA显示正常,停机替换一条新内存后,跑测试也没有问题

就是每天日常报内存错误,请问是什么问题

3 Apprentice

 • 

1.2K 消息

2018年9月9日 22:00

这个报错貌似系统问题啊,不是硬件报错。

1 Rookie

 • 

30 消息

2018年9月10日 08:00

EDAC,据我所知是Linux对内存的监控模块,只有检测硬件系统出错才会记录到这种日志

截图中的报警代表内存发生了错误,但是现代的 ECC REG 内存具有纠错功能,所以尽管报错了,服务器可能还能保持工作

我比较担忧的是,这台设备我们已经更换了两次内存了,之前是有两个槽内存报错,更换后 B1 槽还是问题依然

但是iDRAC中显示正常?

我都无法确认,究竟是我们运气不好,连续两条内存都是有问题的(机率应该不大),其他硬件问题(主板?CPU?),还是 固件和硬件的兼容问题。

恳请官方给个靠谱的答案,

不要忽悠我们什么关闭edac之类的操作,要是这么忽悠,干脆跟我说把电源拔了供起来算了

3 Apprentice

 • 

1.2K 消息

2018年9月16日 20:00

Hi, EDAC的这个报错并不是之硬件真的有问题哈,我们目前的建议解决方案是把EDAC驱动列入黑名单,然后重启。下面是英文原版的解释,暂时没有中文版,我翻译过来也怕有歧义,所以您参考一下,假如真的担心硬件方面有问题,您可以收集一份日志过来我确认一下硬件层面的信息。

Discussion :
 
These errors occur when the Error Detection and Correction (EDAC) module reads the registers from the chipset. You may not notice any memory or CPU errors in the ESM/BMC/IPMI/iDRAC log because the registers are read-once and when enabled, EDAC will get them first.

Resolution :

 

  • Blacklist the edac driver :
    • List edac modules :
      • # lsmod | grep -i edac
    • Take the output and blacklist them :
    • Edit '/etc/modprobe.d/blacklist.conf' with your favorite editor
    • Add the modules at the bottom of the file
    • Example :
      • blacklist i7core_edac
      • blacklist edac_core
  • Reboot
  • Run hardware diagnostics

收集日志请参考:

Windows环境下通过SAE收集日志的操作方法

www.dell.com/support/article/sln305291/zh

Linux环境下通过SAE收集日志的操作方法

www.dell.com/support/article/sln305719/zh

通过iDRAC收集TSR日志的操作方法(12/13G)

www.dell.com/support/article/sln305282/zh

通过Lifecycle收集TSR日志的操作方法(12/13G)

www.dell.com/support/article/sln305280/zh

Windows收集DSET日志的方法-V3.7

Link broken

RH Linux收集DSET日志的方法-V3.7

www.dell.com/support/article/sln305293/zh

(已编辑)

找不到事件!

Top