Bingbing1
2 Iron

CX3存储老坏硬盘

有批老存储CX3-40,80系列,磁盘平均一天坏好几块,日志报 iSCSI  soft  error,不知道是磁盘批次问题还是配置上有什么不妥之处,基本都是RAID5,4+1,8+1,磁盘经常坏会跟什么有关?750GB的SATA盘,机房温度湿度都挺好,空气质量也没什么问题,数据业务量不大,基本是几十M的媒体文件。有高人见解嘛。

标签 (1)
标记 (1)
0 项奖励
12 条回复12
zhouzengchao
4 Germanium

Re: CX3存储老坏硬盘

(1)机械硬盘你懂的,同一批开始使用的,过个1年半载的,基本上就开始一个个挂了,这个是没办法的。所以,首先不要对磁盘挂得多感到惊讶,坏是正常的。接下去我们再继续看是否真的存在非磁盘因素

(2)批次存在问题的可能是有的,但通常是刚装上不久就开始坏,你如果用了个把年了才开始坏,我想你可以排除批次问题。批次问题,你需要找EMC售后,把部件号告诉他们,他们会帮你查这个PN是否存在批次问题,firmware是否需要升级等。

(3)如果你经常看到soft media error [bad block], soft scsi bus error(某块盘在报),致使最后报出803 recommend disk replacement,那都是正常的。年纪到了,该换了。但如果是发现N多盘一起掉,或一批盘都在时不时报soft SCSI bus error,那很有可能是LCC或Cable的问题,这是要找EMC的人看spcollects确认具体哪个点出问题的,通常不是盘本身的问题。

Asadeer
3 Silver

Re: CX3存储老坏硬盘

同意阿超说的,用户不同的环境,磁盘损坏的频率也不同。对于非正常损坏的磁盘,建议收集SP日志SPcollect, 联系EMC技术支持。 看能否找到规律,除了批次,LCC等问题,如果坏盘一直都发生在同一个磁盘柜DAE,DAE也需要请进一步检测。

0 项奖励
Highlighted
Celia_Lee
2 Iron

Re: CX3存储老坏硬盘

SCSI soft error, 有的时候不是磁盘的损坏,而是链路上偶尔的有数据传送的错误. 具体的要看错误代码. 具体原因很多,要看日志和现场情况去具体分析.

磁盘有可能有坏块的错误是soft media error.

这是因为CX的存储上有对磁盘坏块做校验的设计,保证数据读出的真实性和正确性,所以磁盘有很小坏块或是错误的时候都会报出来. 这样的错误要累积到一定程度才会引起磁盘离线(offline), 而在系统处理上也都有容错算法, 保证数据不会丢.

这在磁盘本身firmware都有相应的处理.

原则上如果同一块磁盘的这种错误一个月之内超过3个, 建议会先做一个backgroud verify. 当然最好先看一下日志, 在有些报错的情况下是不能做BV的.

Kissinger
1 Nickel

Re: CX3存储老坏硬盘

还有二种可能:

一、风水问题,碰到过一个中心机房,5楼机房设备坏的就是比3楼的快,找了N多原因无解,只能说3楼风水比5楼好;

二、空气质量问题,是不是机房附近有化工厂或者石化厂,据说上海外高桥那块机房设备损坏率就特别的高。

0 项奖励
FDU1
1 Nickel

Re: CX3存储老坏硬盘

什么方向都查过了就是找不出来原因的时候,可以查查机柜/机箱共振,也是硬盘杀手之一。

Anonymous98
1 Nickel

Re: CX3存储老坏硬盘

试过把三楼设备搬到五楼没有?

0 项奖励
Yanhong1
4 Germanium

Re: CX3存储老坏硬盘

以后技术支持也要学风水学的,哈哈

0 项奖励
Jeffey1
4 Ruthenium

Re: CX3存储老坏硬盘

大师以后多来啊,顺便指点一下论坛版面风水布局啊!

0 项奖励
Kissinger
1 Nickel

Re: CX3存储老坏硬盘

二家都是大老,都不愿意让啊!哈哈!

0 项奖励