XtremIO:DPG 同时有两个 SSD 故障,导致性能影响

Summary: 本文提供有关 XtremIO 如何管理数据保护组 (DPG) 中的两个同时发生的固态硬盘 (SSD) 故障的信息,并说明它如何影响性能。它还提供了一些有关如何在 DPG 重建时帮助减少性能影响的建议。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

在 DPG 完成从以前的 SSD 故障重建之前第二个 SSD 发生故障时,会出现性能影响。

Cause

在 XtremIO 上,如果一个 SSD 出现故障,DPG 将在其余运行状况良好的 SSD 上重建,以维护数据保护。单个 SSD 故障的 DPG 重建过程与两个同时发生的 SSD 故障的 DPG 重建过程不同。

只有一个 SSD 发生故障时:

  • 系统将进入单个降级状态,并且只有一个奇偶校验块来恢复数据。
  • DPG 重建开始在其余运行状况良好的 SSD 上重建故障 SSD 中的数据,以返回到用于数据保护的双奇偶校验数据块状态。
  • 当 DPG 从单个 SSD 故障中重建时,重建过程在后台完成,传入 I/O 仍优先。

当同一 DPG 中的两个 SSD 同时发生故障时:

  • 系统进入双重降级状态,这意味着不存在奇偶校验保护。
  • 数据丢失的风险急剧增加,因此系统会优先进行恢复。这将使用更多 CPU,以便更快地重建 DPG。
  • XtremIO 将重建作优先于用户 I/O,消耗 CPU 和内存资源以避免数据丢失。
  • 这种类型的重建需要大规模元数据更新。它必须计算每个受影响条带的奇偶校验,并执行数据完整性检查,以帮助确保没有损坏。

重建 DPG 时可能出现的警报:

警报名称 症状代码 描述
rebuild_0_to_20_done XTR0800211 DPG 重建已开始。
rebuild_20_to_40_done XTR0800221 DPG 重建正在进行中。超过20%的重建工作已经完成。
rebuild_40_to_60_done XTR0800231 DPG 重建正在进行中。超过40%的重建工作已经完成。
rebuild_60_to_80_done XTR0800241 DPG 重建正在进行中。超过60%的重建工作已经完成。
rebuild_99_done XTR0800251 DPG 重建正在进行中。80%以上的重建工作已经完成。
rg_state_integrate XTR0800904 DPG 正在执行 SSD 集成。
ssd_assigning_to_rg XTR0900106 SSD 正在分配给 DPG。


CLI 命令 show-data-protection-groups 也可以运行以检查 DPG 重建的进度:

xmcli (tech)> show-data-protection-groups
Name     Index Cluster-Name   Index State           Num-Of-SSDs Useful-SSD-Space User-Space User-Space-In-Use Rebuild-Progress Preparation-Progress Proactive-Metadata-Loading Rebuild-Prevention Brick-Name Index
X1-DPG-1 1     LAB-XIO001 1     normal          28          97.809T          85.690T    65.344T           0                0                    False                      none               X1         1
X2-DPG-1 3     LAB-XIO001 1     double_degraded 26          97.809T          83.690T    65.359T           0                54                   False                      assigning_disk     X2         2

Resolution

提醒:出现故障时,务必优先更换 SSD。更换 SSD 时,请等待 DPG 完成重建,然后再继续进行任何其他更换。
 

当同一 DPG 中的两个 SSD 同时发生故障时,性能可能会因重建奇偶校验所消耗的资源而受到影响。无法停止 DPG 重建,也没有命令可以加速它。但是,如果客户由于双重降级保护模式(rg_double_degrade),如果可能,以下作可能有助于减少影响:

  1. 暂停任何备份、复制或密集 I/O 作业,直至 DPG 重建完成。
  2. 如果可能,将最活跃的主机故障切换到其他存储,直到 DPG 重建完成。
  3. 如果使用虚拟机,请关闭或迁移虚拟机,或者将主机置于维护模式。
  4. 如果可能,请使用 QoS 或主机端限制来减少重建期间阵列上的负载。

DPG 重建完成后,任何相关的性能影响都应得到解决。

Additional Information

相关文章:
(可能需要以注册的戴尔支持用户身份登录才能查看这些文章。)

Affected Products

XtremIO, XtremIO X2
Article Properties
Article Number: 000355127
Article Type: Solution
Last Modified: 18 Sept 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.