Highlighted
2 Bronze

RAID5+热备的问题.

IDC里设备R720XD.背板2个硬盘是系统RAID1 

前置面板12盘0-10盘位RAID5.最后一个11盘位是一块热备.

某天4号盘位的硬盘坏了.隔了一天,申请了一个新的硬盘.

4号盘位的硬盘直接拔下.然后插上新的硬盘.

 

现在有问题不太懂:

问题一,4号盘坏了以后.有热备的盘.系统都做了哪些工作.

问题二.4号盘更换了新的设备以后.系统又做了哪些工作.

问题三.现在的热备硬盘是哪个?在没有故障的时候热备盘里有数据吗?

0 项奖励
回复
9 条回复9
Highlighted

您好

1,4号盘坏了,正常情况下热备盘会自动同步

2,4号盘更换新硬盘正常情况下是会自动发生更换成员操作,如成功后,原热备盘会恢复到热备状态

3,如2成功的话,那目前热备盘就是11盘,如没有成功就要去确认4号硬盘是否有同步上。

为了更好的为您提供支持,请您将设备的服务编号私信我。服务编号查找方法请参看: https://dell.to/3c80XAE

0 项奖励
回复
Highlighted
2 Bronze

感谢版主的热心回复,

如何确定 "4号硬盘是否有同步上。"这个硬盘是否已经同步上了呢?目前目测了一下是没问题一.在iDrac里""Drive 3 is installed in disk drive bay 1."

了.

0 项奖励
回复
Highlighted

您好,

如在IDRAC直接查看存储下物理硬盘状态(硬阵列卡)。

0 项奖励
回复
Highlighted
2 Bronze

iDrac里-存储--物理磁盘.对应的"Physical Disk 0:1:3",状况是联机.

 

状态名称状况插槽编号大小安全状态总线协议介质类型热备用剩余额定写入耐久性
 
  Physical Disk 0:1:3联机33725.50 GB不支持SASHDD不适用 

 

这个状态就是说已经正常了吧.如果热备里显示的是专用.就是热备盘.

最后一栏里."剩余额定写入耐久性".这个是什么参数.作用是什么呀?

"机器序列号是 GPTVZ42"

0 项奖励
回复
Highlighted

您好

是的,联机就是ONLINE状态说明正常的。

剩余额定写入耐久性就是写寿命这块,适用于SSD硬盘。

0 项奖励
回复
Highlighted
2 Bronze

非常感谢版主的解答.还有几个疑问:

如图所示:

5+15+1热备2热备2

 

是台2个小硬盘+12个大硬盘的720xd.

其中0-9盘位做的RAID5,10和11两个盘位做的热备.

结合之前的回答,我对热备的理解是:硬盘ABCDE+热备F盘组成RAID5,里的故障盘D里的数据会重建到热备盘F里,组成完整的新的RAID5-硬盘ABCFE,

待故障盘更新设备硬盘d后,热备盘里的对应的数据会恢复(或者说是重建)到更换的新硬盘d里,然后热备盘F变成热备状态,至此完成故障盘D到d的更换.整个过程,RAID5的物理结构是:从ABCDE+热备F---->ABCFE-------->ABCdE+热备F的状态变化    而后热备盘F继续热备.这么理解对吗?如果对,还有以下几个疑问:

1: 结合截图的在这台设备中.2个热备硬盘似乎没必要,或者说什么环境下使用2个热备才是科学的?

由于都是机械硬盘.坏的通常是磁头或者盘体, 所以问题是:热备硬盘是一直处于工作状态(指的是碟片是否转动)?还是处于休眠状态(碟片不转动)?当发生故障的时候,磁头和盘体才开始工作,如果一直处于通电旋转状态逻辑上也是影响寿命的.

2:结合本台设备,有2个热备设备.假设3槽位的硬盘坏了.是10盘位的硬盘顶替,还是11?还是随机事件?假设是10盘位顶替,假设重建的过程中,按数据量说,重建了80%,忽然4号盘又坏了.理论上数据丢失了吧?是完全丢失?还是丢失的是没有重建的20%?还是这个问题没有答案支撑?

再假设:重建后,还没来得及插上新的设备,4号就盘坏了,那么剩下的一个热备肯定也开始工作,重建数据,

至此,3号和4号盘位的坏盘,停止工作.10号和11号的热备接替工作,

拿掉3号和4号的坏盘,插上新盘,那么3号和4号的新盘也会数据重建,重建以后,10号和11号变成热备.是否是这样的过程?

3,本台机器2个热备似乎不科学,如果觉得浪费硬盘.(假设热备盘磁头和盘体一直工作,影响寿命,干脆静置,保持磁头和盘体的机械性)拿掉了11号盘位的热备,但是在阵列配置里,没有将11号盘位的热备状态取消.也就是说11盘位是热备盘状态,但是里面没硬盘.

这个时候发生了以下故障:3号盘坏了.10号接替,重建完.这个时候紧接着4号接着就坏了.逻辑上数据没问题是安全的.毕竟盘的数量没少.11盘位应该顶替,但是里面没盘.这个时候故障盘3号和4号还没有更换.还是坏盘.这个时候会发生什么?

如果这个时候没有给11盘位插硬盘,而是同时把3号和4号故障盘更换成了新硬盘.这个时候会发生什么?

机器又会做什么?

是先重建4号盘的数据到新的4号盘里,还是重建数据到新的4号盘里的同时,10盘位的热备数据重建到3号新盘里同时进行??还是有更可怕的事情发生?

4,如果2个热备盘要拿掉一个.在iDrac里.如图:

5.png

假设将11号盘位的热备取消.这里,取消分配Physical Disk0:1:11就可以了对吧.点应用.后,是可以立刻生效?还是必须重新启动设备???

0 项奖励
回复
Highlighted
版主
版主

1. 设置几个热备看您的应用需求和使用环境,比如您机器长期没有监控,就可以设置多个热备。或者有多个阵列,每个热备可以设置成特定某个阵列的热备盘。热备盘不会一直工作,只是阵列卡会定期检查这些盘的状态

2. 按您的假设,如果是raid 5,一块热备盘重建过程又有一个盘坏了,阵列就会挂了;

如果热备正常重建完成,故障盘更换后,数据都会再写入的更换后的盘,热备盘还是热备盘

3. 是先重建还是先把数据写回3号盘或者是两个同时进行的这个情况没有实验过,如果您有兴趣可以做个实验看看

4. 设置后点击应用就可以了

 

0 项奖励
回复
Highlighted
3 Cadmium

忠粉,这么长文,我提一句:一个磁盘组设置多个热备盘仍有挂的可能,只要重建中过程中继续有一块成员盘故障,vd就会fail。多个热备意义在于,不同时间的单块盘故障,系统会自动分配hot spare顶上。

----------------------------------------------------------------------------------------------
广州DELL服务器第三方上门维修服务
10年专注DELL商用技术支持服务
超融合,私有云,云桌面
http://www.prodell.com
http://www.poweredge.me
服务热线:15920138844
商业在线远程支持QQ:11766859
点击这里给我发消息
0 项奖励
回复
Highlighted
2 Bronze

非常感谢,我一直都以为重建的过程中,是重建多少能保留多少呢...这么看来重建的过程中也是很凶险的.数据量越大,越危险呗.

0 项奖励
回复