Highlighted
sysman007
1 Copper

Dell R910 自动重启 E1422 cpu 1 machine check error power cycle AC

Dell R910配置了4个CPU,服务器自动重启,重启后液晶显示屏显示 cpu 1 machine check error power cycle AC,cpu 2 machine check error power cycle AC,cpu 3 machine check error power cycle AC,cpu 4 machine check error power cycle AC

登录iDRAC,查看日志显示四个CPU都有一样的报错CPU has an internal error (IERR).

尝试过重启服务器和清除iDRAC日志,过了几天有出现一样的错误。请问该怎么解决?

0 项奖励
2 条回复
Community Manager
Community Manager

回复: Dell R910 自动重启 E1422 cpu 1 machine check error power cycle AC

Hi,除了CPU的报错,是否还有其他报错呢?下面是关于此问题的一些诊断建议,您可以参考一下:

CPU IERR报错,即CPU Internal error ,是指CPU核心运算出现错误,反馈到硬件层面上来。这个错误的产生有可能是系统本身,系统中的某个应用、进程,主机的BIOS或者是其他硬件故障所引起,并不代表一定是CPU硬件出现问题。而硬件像主板,CPU的更换,目的是在排除硬件方面的原因所引起的报错,而不意味着更换硬件一定可以解决这个问题。Intel公司不断在对CPU的MRC Code进行更新,因此BIOS的升级将有利于减少这类未知错误,同时有机会转换成具体指向性的错误信息,将有助于故障的排查。

处理建议:

1. 服务器正常使用,仅只有CPU IERR报错的情况。
原因:更多是考虑软件方面的运算出错导致CPU报错,不影响机器正常运行。
建议:
a. 放静电操作
关机断电,按住开关按钮10秒放电,再插电等30秒后开机

b. 更新BIOS/IDRAC,调整BIOS的优化设置(操作参考附件一)
11G Power Management=Maximum Performance; C-state/C1E=Disable
12G/13G: System Profile=Performance

c. 检查系统或应用层面的相关信息
排除第三方软件导致的报错,比如360软件/McAfee/鲁大师/诺顿等
排除不兼容的操作系统原因,比如非机型所支持的OS(如Ubuntu, CentOS, and Fedora)、CPU与OS不兼容等
针对RH Linux系统,为确保CPU运行在C0状态下,请在GRUB中添加intel_idle.max_cstate=0 和idle=poll两个参数并重启生效(操作参考附件二)

 
2. 服务器不稳定:

1)当出现异常重启、关机或死机时,同时伴随着CPU IERR报错。
原因:有可能是硬件问题,也有可能是软件方面问题,引起服务器阶段性或不定期的出现故障。
建议:放静电操作;更新BIOS/IDRAC;调整BIOS的优化设置;第一次派单,不考虑CPU备件;半年内仍然出现CPU IERR报错,请同时考虑CPU更换;

2)服务器报CPU IERR,同时伴随其它周边设备(DIMM/PCI)报错的情况。
原因:往往是周边硬件故障导致的CPU报错,引起服务器阶段性或不定期的出现故障。
建议:检查报错设备的兼容性;更新BIOS/IDRAC;调整BIOS的优化设置;可先不考虑CPU的问题,主要考虑周边报错设备和主板;半年内仍然出现CPU IERR报错,请同时考虑CPU更换;

3.服务器无法开机(NO POWER/NO POST)仅只有CPU IERR报错的情况。
建议:最小化测试;若无法定位故障,建议更换MB、CPU

 

0 项奖励
sysman007
1 Copper

回复: Dell R910 自动重启 E1422 cpu 1 machine check error power cycle AC

    你好,之前操作过:拔掉电源,长按电源键1分钟,然后再插上电源开机,错误代码消失了,但是过了一周服务器自动重启,液晶板上还是一样的错误代码,现在基本上每周会自动重启一次,该怎么解决?

   谢谢!

0 项奖励