XtremIO:DPG 同时有两个 SSD 故障,导致性能影响
Summary: 本文提供有关 XtremIO 如何管理数据保护组 (DPG) 中的两个同时发生的固态硬盘 (SSD) 故障的信息,并说明它如何影响性能。它还提供了一些有关如何在 DPG 重建时帮助减少性能影响的建议。
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
在 DPG 完成从以前的 SSD 故障重建之前第二个 SSD 发生故障时,会出现性能影响。
Cause
在 XtremIO 上,如果一个 SSD 出现故障,DPG 将在其余运行状况良好的 SSD 上重建,以维护数据保护。单个 SSD 故障的 DPG 重建过程与两个同时发生的 SSD 故障的 DPG 重建过程不同。
只有一个 SSD 发生故障时:
- 系统将进入单个降级状态,并且只有一个奇偶校验块来恢复数据。
- DPG 重建开始在其余运行状况良好的 SSD 上重建故障 SSD 中的数据,以返回到用于数据保护的双奇偶校验数据块状态。
- 当 DPG 从单个 SSD 故障中重建时,重建过程在后台完成,传入 I/O 仍优先。
当同一 DPG 中的两个 SSD 同时发生故障时:
- 系统进入双重降级状态,这意味着不存在奇偶校验保护。
- 数据丢失的风险急剧增加,因此系统会优先进行恢复。这将使用更多 CPU,以便更快地重建 DPG。
- XtremIO 将重建作优先于用户 I/O,消耗 CPU 和内存资源以避免数据丢失。
- 这种类型的重建需要大规模元数据更新。它必须计算每个受影响条带的奇偶校验,并执行数据完整性检查,以帮助确保没有损坏。
重建 DPG 时可能出现的警报:
| 警报名称 | 症状代码 | 描述 |
|---|---|---|
rebuild_0_to_20_done |
XTR0800211 |
DPG 重建已开始。 |
rebuild_20_to_40_done |
XTR0800221 |
DPG 重建正在进行中。超过20%的重建工作已经完成。 |
rebuild_40_to_60_done |
XTR0800231 |
DPG 重建正在进行中。超过40%的重建工作已经完成。 |
rebuild_60_to_80_done |
XTR0800241 |
DPG 重建正在进行中。超过60%的重建工作已经完成。 |
rebuild_99_done |
XTR0800251 |
DPG 重建正在进行中。80%以上的重建工作已经完成。 |
rg_state_integrate |
XTR0800904 |
DPG 正在执行 SSD 集成。 |
ssd_assigning_to_rg |
XTR0900106 |
SSD 正在分配给 DPG。 |
CLI 命令 show-data-protection-groups 也可以运行以检查 DPG 重建的进度:
xmcli (tech)> show-data-protection-groups Name Index Cluster-Name Index State Num-Of-SSDs Useful-SSD-Space User-Space User-Space-In-Use Rebuild-Progress Preparation-Progress Proactive-Metadata-Loading Rebuild-Prevention Brick-Name Index X1-DPG-1 1 LAB-XIO001 1 normal 28 97.809T 85.690T 65.344T 0 0 False none X1 1 X2-DPG-1 3 LAB-XIO001 1 double_degraded 26 97.809T 83.690T 65.359T 0 54 False assigning_disk X2 2
Resolution
提醒:出现故障时,务必优先更换 SSD。更换 SSD 时,请等待 DPG 完成重建,然后再继续进行任何其他更换。
当同一 DPG 中的两个 SSD 同时发生故障时,性能可能会因重建奇偶校验所消耗的资源而受到影响。无法停止 DPG 重建,也没有命令可以加速它。但是,如果客户由于双重降级保护模式(rg_double_degrade),如果可能,以下作可能有助于减少影响:
- 暂停任何备份、复制或密集 I/O 作业,直至 DPG 重建完成。
- 如果可能,将最活跃的主机故障切换到其他存储,直到 DPG 重建完成。
- 如果使用虚拟机,请关闭或迁移虚拟机,或者将主机置于维护模式。
- 如果可能,请使用 QoS 或主机端限制来减少重建期间阵列上的负载。
DPG 重建完成后,任何相关的性能影响都应得到解决。
Additional Information
相关文章:
(可能需要以注册的戴尔支持用户身份登录才能查看这些文章。)
Affected Products
XtremIO, XtremIO X2Article Properties
Article Number: 000355127
Article Type: Solution
Last Modified: 18 Sept 2025
Version: 3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.