浏览
帮助
登录
未解决
此帖子已超过 5 年
Bingbing1
40 消息
0
5295
2012年7月9日 22:00
有批老存储CX3-40,80系列,磁盘平均一天坏好几块,日志报 iSCSI soft error,不知道是磁盘批次问题还是配置上有什么不妥之处,基本都是RAID5,4+1,8+1,磁盘经常坏会跟什么有关?750GB的SATA盘,机房温度湿度都挺好,空气质量也没什么问题,数据业务量不大,基本是几十M的媒体文件。有高人见解嘛。
回复(12)
zhouzengchao
2 Intern
•
1.4K 消息
1
(1)机械硬盘你懂的,同一批开始使用的,过个1年半载的,基本上就开始一个个挂了,这个是没办法的。所以,首先不要对磁盘挂得多感到惊讶,坏是正常的。接下去我们再继续看是否真的存在非磁盘因素。
(2)批次存在问题的可能是有的,但通常是刚装上不久就开始坏,你如果用了个把年了才开始坏,我想你可以排除批次问题。批次问题,你需要找EMC售后,把部件号告诉他们,他们会帮你查这个PN是否存在批次问题,firmware是否需要升级等。
(3)如果你经常看到soft media error [bad block], soft scsi bus error(某块盘在报),致使最后报出803 recommend disk replacement,那都是正常的。年纪到了,该换了。但如果是发现N多盘一起掉,或一批盘都在时不时报soft SCSI bus error,那很有可能是LCC或Cable的问题,这是要找EMC的人看spcollects确认具体哪个点出问题的,通常不是盘本身的问题。
Asadeer
290 消息
2012年7月10日 00:00
同意阿超说的,用户不同的环境,磁盘损坏的频率也不同。对于非正常损坏的磁盘,建议收集SP日志SPcollect, 联系EMC技术支持。 看能否找到规律,除了批次,LCC等问题,如果坏盘一直都发生在同一个磁盘柜DAE,DAE也需要请进一步检测。
Celia_Lee
106 消息
2012年7月10日 02:00
SCSI soft error, 有的时候不是磁盘的损坏,而是链路上偶尔的有数据传送的错误. 具体的要看错误代码. 具体原因很多,要看日志和现场情况去具体分析.
磁盘有可能有坏块的错误是soft media error.
这是因为CX的存储上有对磁盘坏块做校验的设计,保证数据读出的真实性和正确性,所以磁盘有很小坏块或是错误的时候都会报出来. 这样的错误要累积到一定程度才会引起磁盘离线(offline), 而在系统处理上也都有容错算法, 保证数据不会丢.
这在磁盘本身firmware都有相应的处理.
原则上如果同一块磁盘的这种错误一个月之内超过3个, 建议会先做一个backgroud verify. 当然最好先看一下日志, 在有些报错的情况下是不能做BV的.
FDU1
18 消息
2012年7月12日 02:00
什么方向都查过了就是找不出来原因的时候,可以查查机柜/机箱共振,也是硬盘杀手之一。
Kissinger
34 消息
还有二种可能:
一、风水问题,碰到过一个中心机房,5楼机房设备坏的就是比3楼的快,找了N多原因无解,只能说3楼风水比5楼好;
二、空气质量问题,是不是机房附近有化工厂或者石化厂,据说上海外高桥那块机房设备损坏率就特别的高。
Anonymous98
16 消息
试过把三楼设备搬到五楼没有?
Yanhong1
1.6K 消息
2012年7月12日 07:00
以后技术支持也要学风水学的,哈哈
Jeffey1
2.8K 消息
大师以后多来啊,顺便指点一下论坛版面风水布局啊!
2012年7月12日 21:00
二家都是大老,都不愿意让啊!哈哈!
leecoool
89 消息
2012年7月12日 23:00
比较同意@阿超 @Celia_Lee两位的意见,最好去查查后端链路。很多都是LCC和线的问题.
@ENIAC说起的共振,我们有遇到过盘柜的水平度导致故障高。就是机房的物理和盘柜放置都是倾斜的,这个倾斜不用专业的仪器,人感觉不出来,但是机器会感觉。
个别的晃动应该是没事的,加州很多机房的机柜都是带滑珠的,那边实在地震太频繁了
2012年7月13日 00:00
楼主,如果你觉得问题已经被解答,请帮忙把此贴标记为“正确回答”或“有用回答”。如果依然存在疑问,欢迎继续提问,多谢!
2012年7月13日 11:00
台湾人喜欢在机房的机柜里放乖乖,让机器乖乖的不出问题,据说挺灵的.
戴尔支持资源
查看更多
查看全部
Top
zhouzengchao
2 Intern
2 Intern
•
1.4K 消息
1
2012年7月9日 22:00
(1)机械硬盘你懂的,同一批开始使用的,过个1年半载的,基本上就开始一个个挂了,这个是没办法的。所以,首先不要对磁盘挂得多感到惊讶,坏是正常的。接下去我们再继续看是否真的存在非磁盘因素。
(2)批次存在问题的可能是有的,但通常是刚装上不久就开始坏,你如果用了个把年了才开始坏,我想你可以排除批次问题。批次问题,你需要找EMC售后,把部件号告诉他们,他们会帮你查这个PN是否存在批次问题,firmware是否需要升级等。
(3)如果你经常看到soft media error [bad block], soft scsi bus error(某块盘在报),致使最后报出803 recommend disk replacement,那都是正常的。年纪到了,该换了。但如果是发现N多盘一起掉,或一批盘都在时不时报soft SCSI bus error,那很有可能是LCC或Cable的问题,这是要找EMC的人看spcollects确认具体哪个点出问题的,通常不是盘本身的问题。
Asadeer
290 消息
0
2012年7月10日 00:00
同意阿超说的,用户不同的环境,磁盘损坏的频率也不同。对于非正常损坏的磁盘,建议收集SP日志SPcollect, 联系EMC技术支持。 看能否找到规律,除了批次,LCC等问题,如果坏盘一直都发生在同一个磁盘柜DAE,DAE也需要请进一步检测。
Celia_Lee
106 消息
1
2012年7月10日 02:00
SCSI soft error, 有的时候不是磁盘的损坏,而是链路上偶尔的有数据传送的错误. 具体的要看错误代码. 具体原因很多,要看日志和现场情况去具体分析.
磁盘有可能有坏块的错误是soft media error.
这是因为CX的存储上有对磁盘坏块做校验的设计,保证数据读出的真实性和正确性,所以磁盘有很小坏块或是错误的时候都会报出来. 这样的错误要累积到一定程度才会引起磁盘离线(offline), 而在系统处理上也都有容错算法, 保证数据不会丢.
这在磁盘本身firmware都有相应的处理.
原则上如果同一块磁盘的这种错误一个月之内超过3个, 建议会先做一个backgroud verify. 当然最好先看一下日志, 在有些报错的情况下是不能做BV的.
FDU1
18 消息
1
2012年7月12日 02:00
什么方向都查过了就是找不出来原因的时候,可以查查机柜/机箱共振,也是硬盘杀手之一。
Kissinger
34 消息
0
2012年7月12日 02:00
还有二种可能:
一、风水问题,碰到过一个中心机房,5楼机房设备坏的就是比3楼的快,找了N多原因无解,只能说3楼风水比5楼好;
二、空气质量问题,是不是机房附近有化工厂或者石化厂,据说上海外高桥那块机房设备损坏率就特别的高。
Anonymous98
16 消息
0
2012年7月12日 02:00
试过把三楼设备搬到五楼没有?
Yanhong1
1.6K 消息
0
2012年7月12日 07:00
以后技术支持也要学风水学的,哈哈
Jeffey1
2 Intern
2 Intern
•
2.8K 消息
0
2012年7月12日 07:00
大师以后多来啊,顺便指点一下论坛版面风水布局啊!
Kissinger
34 消息
0
2012年7月12日 21:00
二家都是大老,都不愿意让啊!哈哈!
leecoool
89 消息
0
2012年7月12日 23:00
比较同意@阿超 @Celia_Lee两位的意见,最好去查查后端链路。很多都是LCC和线的问题.
@ENIAC说起的共振,我们有遇到过盘柜的水平度导致故障高。就是机房的物理和盘柜放置都是倾斜的,这个倾斜不用专业的仪器,人感觉不出来,但是机器会感觉。
个别的晃动应该是没事的,加州很多机房的机柜都是带滑珠的,那边实在地震太频繁了
zhouzengchao
2 Intern
2 Intern
•
1.4K 消息
0
2012年7月13日 00:00
楼主,如果你觉得问题已经被解答,请帮忙把此贴标记为“正确回答”或“有用回答”。如果依然存在疑问,欢迎继续提问,多谢!
Celia_Lee
106 消息
0
2012年7月13日 11:00
台湾人喜欢在机房的机柜里放乖乖,让机器乖乖的不出问题,据说挺灵的.