XtremIO:DPG 同时有两个 SSD 故障,导致性能影响
摘要: 本文提供有关 XtremIO 如何管理数据保护组 (DPG) 中的两个同时发生的固态硬盘 (SSD) 故障的信息,并说明它如何影响性能。它还提供了一些有关如何在 DPG 重建时帮助减少性能影响的建议。
本文适用于
本文不适用于
本文并非针对某种特定的产品。
本文并非包含所有产品版本。
症状
在 DPG 完成从以前的 SSD 故障重建之前第二个 SSD 发生故障时,会出现性能影响。
原因
在 XtremIO 上,如果一个 SSD 出现故障,DPG 将在其余运行状况良好的 SSD 上重建,以维护数据保护。单个 SSD 故障的 DPG 重建过程与两个同时发生的 SSD 故障的 DPG 重建过程不同。
只有一个 SSD 发生故障时:
- 系统将进入单个降级状态,并且只有一个奇偶校验块来恢复数据。
- DPG 重建开始在其余运行状况良好的 SSD 上重建故障 SSD 中的数据,以返回到用于数据保护的双奇偶校验数据块状态。
- 当 DPG 从单个 SSD 故障中重建时,重建过程在后台完成,传入 I/O 仍优先。
当同一 DPG 中的两个 SSD 同时发生故障时:
- 系统进入双重降级状态,这意味着不存在奇偶校验保护。
- 数据丢失的风险急剧增加,因此系统会优先进行恢复。这将使用更多 CPU,以便更快地重建 DPG。
- XtremIO 将重建作优先于用户 I/O,消耗 CPU 和内存资源以避免数据丢失。
- 这种类型的重建需要大规模元数据更新。它必须计算每个受影响条带的奇偶校验,并执行数据完整性检查,以帮助确保没有损坏。
重建 DPG 时可能出现的警报:
| 警报名称 | 症状代码 | 描述 |
|---|---|---|
rebuild_0_to_20_done |
XTR0800211 |
DPG 重建已开始。 |
rebuild_20_to_40_done |
XTR0800221 |
DPG 重建正在进行中。超过20%的重建工作已经完成。 |
rebuild_40_to_60_done |
XTR0800231 |
DPG 重建正在进行中。超过40%的重建工作已经完成。 |
rebuild_60_to_80_done |
XTR0800241 |
DPG 重建正在进行中。超过60%的重建工作已经完成。 |
rebuild_99_done |
XTR0800251 |
DPG 重建正在进行中。80%以上的重建工作已经完成。 |
rg_state_integrate |
XTR0800904 |
DPG 正在执行 SSD 集成。 |
ssd_assigning_to_rg |
XTR0900106 |
SSD 正在分配给 DPG。 |
CLI 命令 show-data-protection-groups 也可以运行以检查 DPG 重建的进度:
xmcli (tech)> show-data-protection-groups Name Index Cluster-Name Index State Num-Of-SSDs Useful-SSD-Space User-Space User-Space-In-Use Rebuild-Progress Preparation-Progress Proactive-Metadata-Loading Rebuild-Prevention Brick-Name Index X1-DPG-1 1 LAB-XIO001 1 normal 28 97.809T 85.690T 65.344T 0 0 False none X1 1 X2-DPG-1 3 LAB-XIO001 1 double_degraded 26 97.809T 83.690T 65.359T 0 54 False assigning_disk X2 2
解决方案
提醒:出现故障时,务必优先更换 SSD。更换 SSD 时,请等待 DPG 完成重建,然后再继续进行任何其他更换。
当同一 DPG 中的两个 SSD 同时发生故障时,性能可能会因重建奇偶校验所消耗的资源而受到影响。无法停止 DPG 重建,也没有命令可以加速它。但是,如果客户由于双重降级保护模式(rg_double_degrade),如果可能,以下作可能有助于减少影响:
- 暂停任何备份、复制或密集 I/O 作业,直至 DPG 重建完成。
- 如果可能,将最活跃的主机故障切换到其他存储,直到 DPG 重建完成。
- 如果使用虚拟机,请关闭或迁移虚拟机,或者将主机置于维护模式。
- 如果可能,请使用 QoS 或主机端限制来减少重建期间阵列上的负载。
DPG 重建完成后,任何相关的性能影响都应得到解决。
其他信息
相关文章:
(可能需要以注册的戴尔支持用户身份登录才能查看这些文章。)
受影响的产品
XtremIO, XtremIO X2文章属性
文章编号: 000355127
文章类型: Solution
上次修改时间: 18 9月 2025
版本: 3
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。