未解决
此帖子已超过 5 年
4K 消息
0
1515
CLARiiON热备份技术(二) - 主动热备份
CLARiiON热备份技术(二) - 主动热备份
转载请在文首保留原文出处:中文支持论坛
介绍
本系列章节将介绍全局热备份(global hot sparing)、主动热备份(proactive hot sparing)和重建日志(rebuild logging)的最佳实践。
为了降低硬盘故障所带来的风险,EMC发展了全局热备份(global hot sparing)技术。全局热备份技术提供了自动化的、在线的RAID重建能力。同时通过引入主动热备份(proactive hot sparing),EMC进一步强化了这项技术。主动热备份技术能够识别出快要出现故障的硬盘并提前开始复制数据。两种技术的整合将数据丢失的风险减少到了最低。CLARiiON (至少FLARE 24版本)同时引入了重建日志(rebuild logging)功能,允许RAID group中的一块盘离线(offline)一段时间而不影响数据完整性。这段时间内对这块盘写入的数据将记录在日志中。
当RAID group中某块硬盘出现故障时,该RAID group就会进入降级(degrade)状态。而当多块硬盘同时发生故障时,数据就有可能丢失,因此尽可能快地替换故障硬盘是很有必要的。CLARiiON主动热备份技术可以提前发现并替换故障盘以避免RAID group进入降级状态。
更多信息
主动热备份的特性
主动热备份技术要求CLARiiON至少运行有FLARE 24版本。在”坏”盘出现故障前预先将数据复制到热备盘,这样就避免了RAID group出现数据丢失的风险。并且,发起复制操作而不是重建,也避免了RAID group暴露在其它盘潜在的介质缺陷(media defect)的威胁之下。这些缺陷可能造成扇区重建失败。
主动热备份可以自动或人工手动发起。FLARE可以做到自动管理,而这些操作对用户是透明的。人工手动发起需要Navisphere Manager:鼠标右键点击需要热备份的硬盘再选择”Copy to hot spare”即可。
主动热备份运行流程如下:
当一块盘达到了某个错误阀值、表现出某种错误状态、或者被手动发起了主动复制时,FLARE将其标记成"proactive hot sparing”并指派为主动热备份候选。
FLARE会根据一定算法选择合适的主动热备盘(后文详述)。
来自备份候选盘的数据被预先复制到主动热备盘。在主动复制的整个过程中都会建立起检查点(checkpoint)。如果在主动复制的过程中,候选盘就出现故障,则数据从最后一个检查点开始重建(rebuild)。检查点前的数据不用被重建。
一旦数据复制完成,候选盘会被标记为已损坏(faulted)并且可被安全地更换。
一旦故障盘被手动替换后,FLARE开始将数据回拷至新替换的硬盘。
一旦数据回拷完成,RAID group就恢复到正常的状态。而热备盘也恢复了可以替换其它盘的能力。
主动复制(Proactive copy)和回拷(equalization)所需时间
主动复制所需时间取决于以下几个因素:
· 硬盘容量
· 硬盘类型(EFD、FC、SAS、SATA)
· 用户实际使用空间
· 后台I/O负载
下表列举了300GB FC磁盘组成的LUN在空闲的CX4-960 (4Gb/s bus )上的基准主动复制速率:
Type | Proactive Copy Rate |
RAID 5 (4+1) | 104 MB/s |
RAID 6 (6+2) | 104 MB/s |
RAID 1/0 (3+3) | 104 MB/s |
由于主动热备份中数据回拷的过程和全局热备份时的一样,因此回拷速度可以参考全局热备份。
参考
参考EMC白皮书”EMC CLARiiON Global Hot Spares and Proactive Hot Sparing - Best Practices Planning”
应用于
CLARiiON系列、VNX系列
big_lei
450 消息
0
2013年4月7日 07:00
非常好。
Lu_shaoyong
58 消息
0
2014年8月15日 00:00
Hi,
其中提到 :当一块盘达到了某个错误阀值、表现出某种错误状态、或者被手动发起了主动复制时,FLARE将其标记成"proactive hot sparing”并指派为主动热备份候选。
那请问这个错误阀值是Soft Media Error这个日志信息吗?它达到什么样的条件需要来进行"proactive hot sparing” ?