开始新对话

未解决

此帖子已超过 5 年

B

5270

2012年7月9日 22:00

CX3存储老坏硬盘

有批老存储CX3-40,80系列,磁盘平均一天坏好几块,日志报 iSCSI  soft  error,不知道是磁盘批次问题还是配置上有什么不妥之处,基本都是RAID5,4+1,8+1,磁盘经常坏会跟什么有关?750GB的SATA盘,机房温度湿度都挺好,空气质量也没什么问题,数据业务量不大,基本是几十M的媒体文件。有高人见解嘛。

1.4K 消息

2012年7月9日 22:00

(1)机械硬盘你懂的,同一批开始使用的,过个1年半载的,基本上就开始一个个挂了,这个是没办法的。所以,首先不要对磁盘挂得多感到惊讶,坏是正常的。接下去我们再继续看是否真的存在非磁盘因素

(2)批次存在问题的可能是有的,但通常是刚装上不久就开始坏,你如果用了个把年了才开始坏,我想你可以排除批次问题。批次问题,你需要找EMC售后,把部件号告诉他们,他们会帮你查这个PN是否存在批次问题,firmware是否需要升级等。

(3)如果你经常看到soft media error [bad block], soft scsi bus error(某块盘在报),致使最后报出803 recommend disk replacement,那都是正常的。年纪到了,该换了。但如果是发现N多盘一起掉,或一批盘都在时不时报soft SCSI bus error,那很有可能是LCC或Cable的问题,这是要找EMC的人看spcollects确认具体哪个点出问题的,通常不是盘本身的问题。

290 消息

2012年7月10日 00:00

同意阿超说的,用户不同的环境,磁盘损坏的频率也不同。对于非正常损坏的磁盘,建议收集SP日志SPcollect, 联系EMC技术支持。 看能否找到规律,除了批次,LCC等问题,如果坏盘一直都发生在同一个磁盘柜DAE,DAE也需要请进一步检测。

106 消息

2012年7月10日 02:00

SCSI soft error, 有的时候不是磁盘的损坏,而是链路上偶尔的有数据传送的错误. 具体的要看错误代码. 具体原因很多,要看日志和现场情况去具体分析.

磁盘有可能有坏块的错误是soft media error.

这是因为CX的存储上有对磁盘坏块做校验的设计,保证数据读出的真实性和正确性,所以磁盘有很小坏块或是错误的时候都会报出来. 这样的错误要累积到一定程度才会引起磁盘离线(offline), 而在系统处理上也都有容错算法, 保证数据不会丢.

这在磁盘本身firmware都有相应的处理.

原则上如果同一块磁盘的这种错误一个月之内超过3个, 建议会先做一个backgroud verify. 当然最好先看一下日志, 在有些报错的情况下是不能做BV的.

18 消息

2012年7月12日 02:00

什么方向都查过了就是找不出来原因的时候,可以查查机柜/机箱共振,也是硬盘杀手之一。

34 消息

2012年7月12日 02:00

还有二种可能:

一、风水问题,碰到过一个中心机房,5楼机房设备坏的就是比3楼的快,找了N多原因无解,只能说3楼风水比5楼好;

二、空气质量问题,是不是机房附近有化工厂或者石化厂,据说上海外高桥那块机房设备损坏率就特别的高。

16 消息

2012年7月12日 02:00

试过把三楼设备搬到五楼没有?

1.6K 消息

2012年7月12日 07:00

以后技术支持也要学风水学的,哈哈

2.8K 消息

2012年7月12日 07:00

大师以后多来啊,顺便指点一下论坛版面风水布局啊!

34 消息

2012年7月12日 21:00

二家都是大老,都不愿意让啊!哈哈!

89 消息

2012年7月12日 23:00

比较同意@阿超 @Celia_Lee两位的意见,最好去查查后端链路。很多都是LCC和线的问题.

@ENIAC说起的共振,我们有遇到过盘柜的水平度导致故障高。就是机房的物理和盘柜放置都是倾斜的,这个倾斜不用专业的仪器,人感觉不出来,但是机器会感觉。

个别的晃动应该是没事的,加州很多机房的机柜都是带滑珠的,那边实在地震太频繁了

1.4K 消息

2012年7月13日 00:00

楼主,如果你觉得问题已经被解答,请帮忙把此贴标记为“正确回答”或“有用回答”。如果依然存在疑问,欢迎继续提问,多谢!

106 消息

2012年7月13日 11:00

台湾人喜欢在机房的机柜里放乖乖,让机器乖乖的不出问题,据说挺灵的.

找不到事件!

Top