开始新对话

未解决

此帖子已超过 5 年

4294

2012年7月21日 03:00

CX400换盘过程中异常

客户的一台CX400,slot 1盘故障灯亮,进navisphere查看确认是F状态,开始换盘:

1、原盘PN 005047873,新盘PN:005048562,经查核磁盘兼容表,可以用于CX400,微码也符合要求。

2、拔出旧盘,插入新盘,故障灯灭,rebuilding开始。未等结束走人(此机以前换过多次硬盘,都没有问题)

3、第三天,客户来电话报告该硬盘仍是亮故障灯。

4、硬盘绿、黄灯均常亮。系经中无其它异常。硬盘状态显示removed.

5、再次更换一块新硬盘(PN:005048562),怪异的事来了:

     a、插入新盘不到1分钟后,新硬盘又亮起故障灯(绿灯也同时亮起)

     b、这时看NAVI,已经不可操作了,也PING不通SPA SPB(开始是连SPA),发现SPA有在重新自检(故障灯闪)

     c、稍后SPA可以连通,进NAVI查看SPB 状态为empty,日志中无异常。

     d、我拔出SPA再插回去,SPA、SPB又正常了(开始错拔成SPB,主机连接也立即断开)。过后不久磁盘开始了T状态,硬盘故障灯已熄灭,绿灯闪,看起来是开始重构了。心情放松了一会

     e、中间去检查别的设备有20多分钟,回来一看,硬盘故障灯又亮了,NAVI中又是报F,状态仍为removed,两个SP A和B又开始分别闪故障灯了,NAVI也断了,PING不通了SPA /SPB,过一会后又可以PING通了,也可以登入NAVI了。

     f、日志中除了有拔出SPA、SPB的相应异常记录外,多了一笔SPS B的故障,显示SPS B FAULT,但SPS B指示灯是正常的。

     g、查看过程中,硬盘故障灯已熄灭,绿灯狂闪,开始数据重构了,40多分钟后,重构完成。NAVI中也显示disk /SP 正常。SPS B故障。

     h、离开时 SPS B指示灯正常。除了面板上的阵列故障灯亮,无其它部件故障灯亮。因为没有备件,没有更换SPS B。

     i、准备周一再去检查一下。或许SPS B可以通过自检,恢复正常。

6、问题是:换一个硬盘为何引起SP多次重启或自检?

290 消息

2012年7月23日 02:00

这个换盘的过程绝对是步步惊心啊,SP的行为确实很怪异,好在终于重建成功了。不晓得有没有很具体的报错信息呢?

按道理说换一个硬盘不会引起SP重启的。 有一种可能是SP本身已经有故障,恰好在磁盘报错时被触发然后重启。 还有一种可能是客户的机房电源不稳,偶尔断电也会造成两个SP重启。

SPS B和换盘或者SP重启应该没有太大关联,不晓得周一自检之后能否恢复正常。

7 消息

2012年7月23日 05:00

谢谢您的关注!

今天(23日)一早去看,硬盘又挂了。仍是绿、黄灯长亮,状态为removed. 上周的SPS B报错已没有了(这个我预测是这个结果)。

两次换盘(7月17日上午和7月20日下午)均有对应LOG,请见附件。其中似乎有一段错误有关磁盘格式不对的。但我换上的PN005048562应该是可以用于CX400的。

我对EMC是菜鸟,现在已将信息发给公司EMC工程师详查。电话中他们也没有太多办法。

如您有任何见解,望不吝指教!

2012-07-23

李宇维

发件人: Nancy Qian

发送时间: 2012-07-23 17:14:05

收件人: ar6400

抄送:

主题: _New_message:_"CX40 0换盘过程中异常"

EMC Community Network

Re: CX400换盘过程中异常

created by Nancy Qian in 存储系统 - View the full discussion

这个换盘的过程绝对是步步惊心啊,SP的行为确实很怪异,好在终于重建成功了。不晓得有没有很具体的报错信息呢?

按道理说换一个硬盘不会引起SP重启的。 有一种可能是SP本身已经有故障,恰好在磁盘报错时被触发然后重启。 还有一种可能是客户的机房电源不稳,偶尔断电也会造成两个SP重启。

SPS B和换盘或者SP重启应该没有太大关联,不晓得周一自检之后能否恢复正常。

Reply to this message by replying to this email -or- go to the message on ECN

Start a new discussion in 存储系统 by email or at ECN

1个附件

106 消息

2012年7月23日 09:00

如果是DPE上的slot 1有故障, 有可能引起SPB的系统软件错误. 我以前碰到过一块硬盘坏,后来导致SP不能启动, 最后要重灌系统解决的.

但你的情况还有很多需要查:

比如说SPB的IP是不是ping得通, 是不是网线松掉了. 旧的存储SP的管理网线没接好,也显示F.

SPS的F是正常的,SP刚刚重启过, SPS要重新充放电, 在充电刚开始的阶段是F的显示, 过一段时间以后才变成T, 那是电压太低的原因.

我也碰到过单个SP的故障引起硬盘某个slot的硬盘显示故障,更换硬盘无效. 不过那个多数是由于SP本身DOA造成的.

有一些低flare code的存储,要求在换盘之前运行cru on off的命令去把损坏的磁盘从系统里断电,然后更换后再运行命令把硬盘加电, 系统会自动开始数据重建. 否则会引起系统数据错误.

如果会做最好抓取系统的spcollect日志,而不仅仅是log. 这样可以看到更多的信息.

290 消息

2012年7月24日 01:00

研究了一下附件中的Log,确实没有跟这个故障有关的详细记录。抓取SP日志spcollects的详细步骤建议参考https://community.emc.com/docs/DOC-13008

7 消息

2012年7月24日 05:00

谢谢!明天再进机房去看看。

发件人: Nancy Qian

发送时间: 2012-07-24 16:33:28

收件人: ar6400

抄送:

主题: _New_message:_"CX40 0换盘过程中异常"

EMC Community Network

Re: CX400换盘过程中异常

created by Nancy Qian in 存储系统 - View the full discussion

研究了一下附件中的Log,确实没有跟这个故障有关的详细记录。抓取SP日志spcollects的详细步骤建议参考https://community.emc.com/docs/DOC-13008

Reply to this message by replying to this email -or- go to the message on ECN

Start a new discussion in 存储系统 by email or at ECN

7 消息

2012年8月2日 15:00

报告一下处理结果:

28号再次更换上一块硬盘(PN 005048530)后,重构过程正常完成。此盘微码6A08(?记不清了),日志无异常。连续一周了也没有再出问题。

看来还是硬盘微码问题所致。不明白EMC是如何设计的:如果微码不兼容,应该一开始就检测出来,而不是跌跌撞撞地去强行RAID重构。

1.4K 消息

2012年8月2日 18:00

仅如此不能断言是微码问题

215 消息

2012年8月2日 19:00

奇怪的问题

290 消息

2012年8月3日 01:00

再次核对了一下,这三种不同备件号的磁盘都可以互相替换的。磁盘的微码版本过低确实会影响磁盘的稳定和性能。但是到目前为止,无法确定是微码问题造成重建失败。如果感兴趣,我们可以试着从SP日志spcollect中找找看原因。

找不到事件!

Top