未解决
此帖子已超过 5 年
7 消息
0
4458
R710 服务器,内存拔插后服务器不能稳定运行,总是自动重启。
服务器配置:双CPU、四根8G 1333 ECC 内存。
故障原因及现象:停机后拔插内存。服务器长时间停止在TEST MEMORY ,PLEASE WAITING界面 。反复重启后有时能进操作系统,但几分钟后系统就蓝屏重启。
调整过CPU和内存。
双CPU。4根内存时:A1\A2\B1\B2和A1\A4\B1\B4组合。2根内存时:A1\B1
单CPU、2根内存时:A1\A2和A1\A4 。1根内存:A1
并交替内存进程测试。故障依旧。
求解决办法。
eahua_tang
Community Manager
Community Manager
•
1.7K 消息
0
2017年6月21日 01:00
仔细看看内存及CPU的槽位是否干净,然后再试试
保留CPU1 及DIMMA1的内存测试一下,情况一样,把CPU1换成另一个CPU及内存也换一个。
如果可以正常启动,慢慢把内存及CPU加回去测试
如果情况一样,把所有的CPU及内存插回去,启动服务器的时候看看能不能按F10,里面有Diagnostic的选择,看看能不能进去,跑一下硬盘诊断。
另注意一下,报错是否有PCIE之类的报错
122174038qq.com
7 消息
0
2017年6月21日 02:00
拔除阵列、1CPU、DIMMA1 的情况下:
Diagnostic内诊断有如下报错:
1、Error Code 2900:0221 Msg: IPMI - Oct 11 08:05:014 2016; processor :: Processor (status) "CPU1"
2、Error Code 2900:0221 Msg: IPM1- Oct 20 10:21:37 2016 : Uncorrectable ECC error . DIMM_A2
3、Error Code 2900:0221 Msg: IPM1- Oct 20 10:21:53 2016 : System Firmware :: Processor sensor (cpu Machine Chk) transition to non-recoverable.
memory test 中提示:Evlog: Fail 需要清除记录。
这些会有影响么?
eahua_tang
Community Manager
Community Manager
•
1.7K 消息
0
2017年6月21日 02:00
1CPU、DIMMA1 的情况下可以启动吗?更换CPU及多内存交换单条试一下。
报错看上去像之前的报错记录,先清除掉,如果以上情况不能启动再跑诊断。
122174038qq.com
7 消息
0
2017年6月21日 06:00
另外F10里的测试磁盘等全部通过测试。
122174038qq.com
7 消息
0
2017年6月21日 06:00
1cpu、DIMMA1的情况下可以启动,但2小时后报一下错。
e2010 memory not detected .Inspect DIMMs
e1410 system fatal error detected.
e1422 Cpu1 machine check error. Power cycle AC.
e2110 Multibit error on DIMM A1. Reseat DIMM.
eahua_tang
Community Manager
Community Manager
•
1.7K 消息
0
2017年6月21日 19:00
好吧!~这种情况我估计是主板的问题了。
122174038qq.com
7 消息
0
2017年6月21日 21:00
这就没什么救了!
122174038qq.com
7 消息
0
2017年6月22日 03:00
后期测试出现如下报错:
E171F Pcle Fatal Error On Bus 0 Device 0 Function 0, Review & clear SEL
E1715 Fatal I/O Error, Review & clear SEL
这是不是就能确定主板故障了?有办法修复么?
eahua_tang
Community Manager
Community Manager
•
1.7K 消息
0
2017年6月22日 04:00
只能更换了!