开始新对话

未解决

LJ

53 消息

4899

2020年4月28日 05:00

RAID5+热备的问题.

IDC里设备R720XD.背板2个硬盘是系统RAID1 

前置面板12盘0-10盘位RAID5.最后一个11盘位是一块热备.

某天4号盘位的硬盘坏了.隔了一天,申请了一个新的硬盘.

4号盘位的硬盘直接拔下.然后插上新的硬盘.

 

现在有问题不太懂:

问题一,4号盘坏了以后.有热备的盘.系统都做了哪些工作.

问题二.4号盘更换了新的设备以后.系统又做了哪些工作.

问题三.现在的热备硬盘是哪个?在没有故障的时候热备盘里有数据吗?

1 Rookie

 • 

748 消息

2020年4月28日 18:00

您好

1,4号盘坏了,正常情况下热备盘会自动同步

2,4号盘更换新硬盘正常情况下是会自动发生更换成员操作,如成功后,原热备盘会恢复到热备状态

3,如2成功的话,那目前热备盘就是11盘,如没有成功就要去确认4号硬盘是否有同步上。

为了更好的为您提供支持,请您将设备的服务编号私信我。服务编号查找方法请参看: https://dell.to/3c80XAE

53 消息

2020年4月29日 20:00

感谢版主的热心回复,

如何确定 "4号硬盘是否有同步上。"这个硬盘是否已经同步上了呢?目前目测了一下是没问题一.在iDrac里""Drive 3 is installed in disk drive bay 1."

了.

53 消息

2020年4月29日 21:00

iDrac里-存储--物理磁盘.对应的"Physical Disk 0:1:3",状况是联机.

 

状态 名称 状况 插槽编号 大小 安全状态 总线协议 介质类型 热备用 剩余额定写入耐久性
 
   Physical Disk 0:1:3status_ok 联机 3 3725.50 GB 不支持 SAS HDD 不适用  

 

这个状态就是说已经正常了吧.如果热备里显示的是专用.就是热备盘.

最后一栏里."剩余额定写入耐久性".这个是什么参数.作用是什么呀?

"机器序列号是 GPTVZ42"

1 Rookie

 • 

748 消息

2020年4月29日 21:00

您好,

如在IDRAC直接查看存储下物理硬盘状态(硬阵列卡)。

1 Rookie

 • 

748 消息

2020年4月29日 23:00

您好

是的,联机就是ONLINE状态说明正常的。

剩余额定写入耐久性就是写寿命这块,适用于SSD硬盘。

53 消息

2020年5月6日 02:00

非常感谢版主的解答.还有几个疑问:

如图所示:

5+15+1热备2热备2

 

是台2个小硬盘+12个大硬盘的720xd.

其中0-9盘位做的RAID5,10和11两个盘位做的热备.

结合之前的回答,我对热备的理解是:硬盘ABCDE+热备F盘组成RAID5,里的故障盘D里的数据会重建到热备盘F里,组成完整的新的RAID5-硬盘ABCFE,

待故障盘更新设备硬盘d后,热备盘里的对应的数据会恢复(或者说是重建)到更换的新硬盘d里,然后热备盘F变成热备状态,至此完成故障盘D到d的更换.整个过程,RAID5的物理结构是:从ABCDE+热备F---->ABCFE-------->ABCdE+热备F的状态变化    而后热备盘F继续热备.这么理解对吗?如果对,还有以下几个疑问:

1: 结合截图的在这台设备中.2个热备硬盘似乎没必要,或者说什么环境下使用2个热备才是科学的?

由于都是机械硬盘.坏的通常是磁头或者盘体, 所以问题是:热备硬盘是一直处于工作状态(指的是碟片是否转动)?还是处于休眠状态(碟片不转动)?当发生故障的时候,磁头和盘体才开始工作,如果一直处于通电旋转状态逻辑上也是影响寿命的.

2:结合本台设备,有2个热备设备.假设3槽位的硬盘坏了.是10盘位的硬盘顶替,还是11?还是随机事件?假设是10盘位顶替,假设重建的过程中,按数据量说,重建了80%,忽然4号盘又坏了.理论上数据丢失了吧?是完全丢失?还是丢失的是没有重建的20%?还是这个问题没有答案支撑?

再假设:重建后,还没来得及插上新的设备,4号就盘坏了,那么剩下的一个热备肯定也开始工作,重建数据,

至此,3号和4号盘位的坏盘,停止工作.10号和11号的热备接替工作,

拿掉3号和4号的坏盘,插上新盘,那么3号和4号的新盘也会数据重建,重建以后,10号和11号变成热备.是否是这样的过程?

3,本台机器2个热备似乎不科学,如果觉得浪费硬盘.(假设热备盘磁头和盘体一直工作,影响寿命,干脆静置,保持磁头和盘体的机械性)拿掉了11号盘位的热备,但是在阵列配置里,没有将11号盘位的热备状态取消.也就是说11盘位是热备盘状态,但是里面没硬盘.

这个时候发生了以下故障:3号盘坏了.10号接替,重建完.这个时候紧接着4号接着就坏了.逻辑上数据没问题是安全的.毕竟盘的数量没少.11盘位应该顶替,但是里面没盘.这个时候故障盘3号和4号还没有更换.还是坏盘.这个时候会发生什么?

如果这个时候没有给11盘位插硬盘,而是同时把3号和4号故障盘更换成了新硬盘.这个时候会发生什么?

机器又会做什么?

是先重建4号盘的数据到新的4号盘里,还是重建数据到新的4号盘里的同时,10盘位的热备数据重建到3号新盘里同时进行??还是有更可怕的事情发生?

4,如果2个热备盘要拿掉一个.在iDrac里.如图:

5.png

假设将11号盘位的热备取消.这里,取消分配Physical Disk0:1:11就可以了对吧.点应用.后,是可以立刻生效?还是必须重新启动设备???

390 消息

2020年5月7日 01:00

1. 设置几个热备看您的应用需求和使用环境,比如您机器长期没有监控,就可以设置多个热备。或者有多个阵列,每个热备可以设置成特定某个阵列的热备盘。热备盘不会一直工作,只是阵列卡会定期检查这些盘的状态

2. 按您的假设,如果是raid 5,一块热备盘重建过程又有一个盘坏了,阵列就会挂了;

如果热备正常重建完成,故障盘更换后,数据都会再写入的更换后的盘,热备盘还是热备盘

3. 是先重建还是先把数据写回3号盘或者是两个同时进行的这个情况没有实验过,如果您有兴趣可以做个实验看看

4. 设置后点击应用就可以了

 

613 消息

2020年5月20日 22:00

忠粉,这么长文,我提一句:一个磁盘组设置多个热备盘仍有挂的可能,只要重建中过程中继续有一块成员盘故障,vd就会fail。多个热备意义在于,不同时间的单块盘故障,系统会自动分配hot spare顶上。

53 消息

2020年5月22日 00:00

非常感谢,我一直都以为重建的过程中,是重建多少能保留多少呢...这么看来重建的过程中也是很凶险的.数据量越大,越危险呗.

找不到事件!

Top