未解决
此帖子已超过 5 年
7 消息
0
4327
CX400换盘过程中异常
客户的一台CX400,slot 1盘故障灯亮,进navisphere查看确认是F状态,开始换盘:
1、原盘PN 005047873,新盘PN:005048562,经查核磁盘兼容表,可以用于CX400,微码也符合要求。
2、拔出旧盘,插入新盘,故障灯灭,rebuilding开始。未等结束走人(此机以前换过多次硬盘,都没有问题)
3、第三天,客户来电话报告该硬盘仍是亮故障灯。
4、硬盘绿、黄灯均常亮。系经中无其它异常。硬盘状态显示removed.
5、再次更换一块新硬盘(PN:005048562),怪异的事来了:
a、插入新盘不到1分钟后,新硬盘又亮起故障灯(绿灯也同时亮起)
b、这时看NAVI,已经不可操作了,也PING不通SPA SPB(开始是连SPA),发现SPA有在重新自检(故障灯闪)
c、稍后SPA可以连通,进NAVI查看SPB 状态为empty,日志中无异常。
d、我拔出SPA再插回去,SPA、SPB又正常了(开始错拔成SPB,主机连接也立即断开)。过后不久磁盘开始了T状态,硬盘故障灯已熄灭,绿灯闪,看起来是开始重构了。心情放松了一会
e、中间去检查别的设备有20多分钟,回来一看,硬盘故障灯又亮了,NAVI中又是报F,状态仍为removed,两个SP A和B又开始分别闪故障灯了,NAVI也断了,PING不通了SPA /SPB,过一会后又可以PING通了,也可以登入NAVI了。
f、日志中除了有拔出SPA、SPB的相应异常记录外,多了一笔SPS B的故障,显示SPS B FAULT,但SPS B指示灯是正常的。
g、查看过程中,硬盘故障灯已熄灭,绿灯狂闪,开始数据重构了,40多分钟后,重构完成。NAVI中也显示disk /SP 正常。SPS B故障。
h、离开时 SPS B指示灯正常。除了面板上的阵列故障灯亮,无其它部件故障灯亮。因为没有备件,没有更换SPS B。
i、准备周一再去检查一下。或许SPS B可以通过自检,恢复正常。
6、问题是:换一个硬盘为何引起SP多次重启或自检?
Asadeer
290 消息
0
2012年7月23日 02:00
这个换盘的过程绝对是步步惊心啊,SP的行为确实很怪异,好在终于重建成功了。不晓得有没有很具体的报错信息呢?
按道理说换一个硬盘不会引起SP重启的。 有一种可能是SP本身已经有故障,恰好在磁盘报错时被触发然后重启。 还有一种可能是客户的机房电源不稳,偶尔断电也会造成两个SP重启。
SPS B和换盘或者SP重启应该没有太大关联,不晓得周一自检之后能否恢复正常。
ar6400
7 消息
0
2012年7月23日 05:00
谢谢您的关注!
今天(23日)一早去看,硬盘又挂了。仍是绿、黄灯长亮,状态为removed. 上周的SPS B报错已没有了(这个我预测是这个结果)。
两次换盘(7月17日上午和7月20日下午)均有对应LOG,请见附件。其中似乎有一段错误有关磁盘格式不对的。但我换上的PN005048562应该是可以用于CX400的。
我对EMC是菜鸟,现在已将信息发给公司EMC工程师详查。电话中他们也没有太多办法。
如您有任何见解,望不吝指教!
2012-07-23
李宇维
发件人: Nancy Qian
发送时间: 2012-07-23 17:14:05
收件人: ar6400
抄送:
主题: _New_message:_"CX40 0换盘过程中异常"
EMC Community Network
Re: CX400换盘过程中异常
created by Nancy Qian in 存储系统 - View the full discussion
这个换盘的过程绝对是步步惊心啊,SP的行为确实很怪异,好在终于重建成功了。不晓得有没有很具体的报错信息呢?
按道理说换一个硬盘不会引起SP重启的。 有一种可能是SP本身已经有故障,恰好在磁盘报错时被触发然后重启。 还有一种可能是客户的机房电源不稳,偶尔断电也会造成两个SP重启。
SPS B和换盘或者SP重启应该没有太大关联,不晓得周一自检之后能否恢复正常。
Reply to this message by replying to this email -or- go to the message on ECN
Start a new discussion in 存储系统 by email or at ECN
1个附件
SPA+SPB LOG.rar
Celia_Lee
106 消息
1
2012年7月23日 09:00
如果是DPE上的slot 1有故障, 有可能引起SPB的系统软件错误. 我以前碰到过一块硬盘坏,后来导致SP不能启动, 最后要重灌系统解决的.
但你的情况还有很多需要查:
比如说SPB的IP是不是ping得通, 是不是网线松掉了. 旧的存储SP的管理网线没接好,也显示F.
SPS的F是正常的,SP刚刚重启过, SPS要重新充放电, 在充电刚开始的阶段是F的显示, 过一段时间以后才变成T, 那是电压太低的原因.
我也碰到过单个SP的故障引起硬盘某个slot的硬盘显示故障,更换硬盘无效. 不过那个多数是由于SP本身DOA造成的.
有一些低flare code的存储,要求在换盘之前运行cru on off的命令去把损坏的磁盘从系统里断电,然后更换后再运行命令把硬盘加电, 系统会自动开始数据重建. 否则会引起系统数据错误.
如果会做最好抓取系统的spcollect日志,而不仅仅是log. 这样可以看到更多的信息.
Asadeer
290 消息
0
2012年7月24日 01:00
研究了一下附件中的Log,确实没有跟这个故障有关的详细记录。抓取SP日志spcollects的详细步骤建议参考https://community.emc.com/docs/DOC-13008
ar6400
7 消息
0
2012年7月24日 05:00
谢谢!明天再进机房去看看。
发件人: Nancy Qian
发送时间: 2012-07-24 16:33:28
收件人: ar6400
抄送:
主题: _New_message:_"CX40 0换盘过程中异常"
EMC Community Network
Re: CX400换盘过程中异常
created by Nancy Qian in 存储系统 - View the full discussion
研究了一下附件中的Log,确实没有跟这个故障有关的详细记录。抓取SP日志spcollects的详细步骤建议参考https://community.emc.com/docs/DOC-13008
Reply to this message by replying to this email -or- go to the message on ECN
Start a new discussion in 存储系统 by email or at ECN
ar6400
7 消息
0
2012年8月2日 15:00
报告一下处理结果:
28号再次更换上一块硬盘(PN 005048530)后,重构过程正常完成。此盘微码6A08(?记不清了),日志无异常。连续一周了也没有再出问题。
看来还是硬盘微码问题所致。不明白EMC是如何设计的:如果微码不兼容,应该一开始就检测出来,而不是跌跌撞撞地去强行RAID重构。
zhouzengchao
2 Intern
2 Intern
•
1.4K 消息
0
2012年8月2日 18:00
仅如此不能断言是微码问题
Jack_Mei
215 消息
0
2012年8月2日 19:00
奇怪的问题
Asadeer
290 消息
0
2012年8月3日 01:00
再次核对了一下,这三种不同备件号的磁盘都可以互相替换的。磁盘的微码版本过低确实会影响磁盘的稳定和性能。但是到目前为止,无法确定是微码问题造成重建失败。如果感兴趣,我们可以试着从SP日志spcollect中找找看原因。