Highlighted
qihua1
2 Iron

CX 500 严重故障,换控制器无法解决,求帮助

各位大神,求建议:

公司一台很老的CX500的机器,一年多没去机房管过了,半个月前发现性能读写很慢(后台人员发现:

QQ截图20141117093019.jpg

我去了现场查看,发现SPA控制器故障灯闪烁,用秒表数了下,1秒2次故障灯闪。SPB正常管理,目前所有LUN在SPB运行,write cache 关闭。flare code 版本2.16.

SPA插拔重启过程中,开始也是4秒一次的正常启动,但是随后就是1秒2次故障灯闪,整个重启SPA过程IP无法Ping通。

第二天带控制器过来更换,发现重新插拔后,完全一样的故障,开始也是4秒一次的正常启动,但是随后就是1秒2次故障灯闪,整个重启SPA过程IP无法Ping通。

这中间还发现一个问题,连接扩展柜的BE0口灯不亮,BE1正常。

MediaLib_Camera Roll_WP_20141113_007.jpg

而且在插拔控制器的过程中,0号盘柜(下面那个盘柜)所有硬盘黄灯闪烁。。。但是10分钟后自动好了,这个更加无法理解,就算是这个控制器完全不起作用,还是有完整的链路在运行的呀,不知道为什么出现这种情况。

MediaLib_Camera Roll_WP_20141113_010.jpg

由于手上没有串口线,所有没有那方面的信息了。。。

附上日志,求各位大神给意见~

标签 (1)
0 项奖励
12 条回复12
qihua1
2 Iron

Re: CX 500 严重故障,换控制器无法解决,求帮助

木有人观注...求回复~

0 项奖励
Roger_Wu
4 Ruthenium

Re: CX 500 严重故障,换控制器无法解决,求帮助

大致看了看日志,首先从日志上我看到的FLARE版本是2.07.500.5.021,你的2.16是哪里确认的?

                           SPA------------      SPB------------

Array Software Revision:                        2.07.500.5.021     

SP Serial Number:                               BKK00060862368     

IP Address:                                     10.203.2.13        

PROM Revision:                                  3.62.00            

SP Signature:              0                    198c24             

Agent Revision:                                 6.7.2 (0.0)        

SP Memory:                                      2046               

SP Time:                                        11/13/2014 07:23:42

Faulted的组件有这么几个:

Fault summary:

FRU                   SPA                        SPB

--------------------  -------------------------  -------------------------

Bus0 Enc0                                        Faulted

Bus0 Enc0 SPSA                                   Removed

Bus1 Enc0                                        Faulted

Bus1 Enc0 Dsk8                                   Removed

SPA                                              Removed

SPS A确认工作状态和连线都正常不?Disk 1.0.8也要换了。先确认SPS是否都正常不,供电不正常,SP肯定没法正常工作。

0 项奖励
qihua1
2 Iron

Re: CX 500 严重故障,换控制器无法解决,求帮助

谢谢Roger

版本应该是我写错了,只是想说明下是挺老的版本吧

现场看sps a应该是没问题的,插拔控制器过程中还看它有充电,所有连线是正常的,托管在专业机房,没人动过的

我觉的显示sps removed可能和spa 不起作用相关吧,个人理解。

发自我的 Windows Phone

0 项奖励
Roger_Wu
4 Ruthenium

Re: CX 500 严重故障,换控制器无法解决,求帮助

原本想看看最开始到底是哪些部件先坏的,但SP logs被大量的SPS/PS Faulted的日志占满了,早期的日志已经看不到了。

客户还准备继续用这台设备?乘一个SP还能工作,把数据备份出来吧。CX500三年前就EOSL了...

0 项奖励
yansheng
2 Iron

Re: CX 500 严重故障,换控制器无法解决,求帮助

看控制器spa内存好着没  ?控制器是否是正品?

扩展柜DAE灯不亮,那就看链接他的电源线正常不,松动了没?

0 项奖励
born_chen
4 Tellurium

Re: CX 500 严重故障,换控制器无法解决,求帮助

如果还能正常访问数据,第一时间备份走数据,然后考虑换存储吧。如果你是用户,是为自己着想,如果你是集成商,是为用户、为自己着想。

0 项奖励
qihua1
2 Iron

Re: CX 500 严重故障,换控制器无法解决,求帮助

谢谢各位的回复

只是由于各种原因,这台机器要求修好继续使用。。。

补充几点情况,控制器没有拆开看,不过新更换测试的控制器是之前我有在其它CX500上正常使用过的,应该问题不大,排除了DOA的可能。

大家能否帮忙想到可能的故障点呢,我在想

一:是不是DPE前端背板故障,导致换控制器无效?

二:是不是SPA对应的系统故障了?如果这种情况是不是需要重灌系统?但我没做过这操作,有这方面的文档可以提供吗?如果没记错,SPA系统是不是对应的0,2 这二块硬盘做的RAID1?

三:是不是flare code版本太老也有可能这样?如果是这样,在排除升级风险外,版本升级有没有跨代限制?

0 项奖励
qihua1
2 Iron

Re: CX 500 严重故障,换控制器无法解决,求帮助

以上观点,我没有找到任何KB做论点,不知道大家能否找到这方面的资料呢,求讨论,求赐教~

(话说这CX500的串口线很不好找啊,万能的淘宝我都没找着。。。)

0 项奖励
Roger_Wu
4 Ruthenium

Re: CX 500 严重故障,换控制器无法解决,求帮助

CX500应该支持SPQ工具(SP Qualifier Tool),有试过不?

另外有用的KB还是有的,比如下面这些:

How to troubleshoot a CLARiiON storage processor (SP) that won't boot

https://support.emc.com/kb/7200

How do you know whether a CLARiiON storage processor (SP) is hung or dead?

https://support.emc.com/kb/5583

甚至SP起不来了也能帮你做re-image:

What should be done before performing a data-in-place re-image of a CLARiiON CX-Series Storage Processor (SP) that will not boot

https://support.emc.com/kb/6083

不过这些KB都只有EMC工程师或者有权限的经销商才能访问(Employees and Partners),不少操作还需要EMC Level 2的工程师确认后才能做,实际操作时要特别小心。你们接了客户的维保服务了?这倒真是件麻烦事......