XtremIO:DPG 同时有两个 SSD 故障,导致性能影响

摘要: 本文提供有关 XtremIO 如何管理数据保护组 (DPG) 中的两个同时发生的固态硬盘 (SSD) 故障的信息,并说明它如何影响性能。它还提供了一些有关如何在 DPG 重建时帮助减少性能影响的建议。

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

症状

在 DPG 完成从以前的 SSD 故障重建之前第二个 SSD 发生故障时,会出现性能影响。

原因

在 XtremIO 上,如果一个 SSD 出现故障,DPG 将在其余运行状况良好的 SSD 上重建,以维护数据保护。单个 SSD 故障的 DPG 重建过程与两个同时发生的 SSD 故障的 DPG 重建过程不同。

只有一个 SSD 发生故障时:

  • 系统将进入单个降级状态,并且只有一个奇偶校验块来恢复数据。
  • DPG 重建开始在其余运行状况良好的 SSD 上重建故障 SSD 中的数据,以返回到用于数据保护的双奇偶校验数据块状态。
  • 当 DPG 从单个 SSD 故障中重建时,重建过程在后台完成,传入 I/O 仍优先。

当同一 DPG 中的两个 SSD 同时发生故障时:

  • 系统进入双重降级状态,这意味着不存在奇偶校验保护。
  • 数据丢失的风险急剧增加,因此系统会优先进行恢复。这将使用更多 CPU,以便更快地重建 DPG。
  • XtremIO 将重建作优先于用户 I/O,消耗 CPU 和内存资源以避免数据丢失。
  • 这种类型的重建需要大规模元数据更新。它必须计算每个受影响条带的奇偶校验,并执行数据完整性检查,以帮助确保没有损坏。

重建 DPG 时可能出现的警报:

警报名称 症状代码 描述
rebuild_0_to_20_done XTR0800211 DPG 重建已开始。
rebuild_20_to_40_done XTR0800221 DPG 重建正在进行中。超过20%的重建工作已经完成。
rebuild_40_to_60_done XTR0800231 DPG 重建正在进行中。超过40%的重建工作已经完成。
rebuild_60_to_80_done XTR0800241 DPG 重建正在进行中。超过60%的重建工作已经完成。
rebuild_99_done XTR0800251 DPG 重建正在进行中。80%以上的重建工作已经完成。
rg_state_integrate XTR0800904 DPG 正在执行 SSD 集成。
ssd_assigning_to_rg XTR0900106 SSD 正在分配给 DPG。


CLI 命令 show-data-protection-groups 也可以运行以检查 DPG 重建的进度:

xmcli (tech)> show-data-protection-groups
Name     Index Cluster-Name   Index State           Num-Of-SSDs Useful-SSD-Space User-Space User-Space-In-Use Rebuild-Progress Preparation-Progress Proactive-Metadata-Loading Rebuild-Prevention Brick-Name Index
X1-DPG-1 1     LAB-XIO001 1     normal          28          97.809T          85.690T    65.344T           0                0                    False                      none               X1         1
X2-DPG-1 3     LAB-XIO001 1     double_degraded 26          97.809T          83.690T    65.359T           0                54                   False                      assigning_disk     X2         2

解决方案

提醒:出现故障时,务必优先更换 SSD。更换 SSD 时,请等待 DPG 完成重建,然后再继续进行任何其他更换。
 

当同一 DPG 中的两个 SSD 同时发生故障时,性能可能会因重建奇偶校验所消耗的资源而受到影响。无法停止 DPG 重建,也没有命令可以加速它。但是,如果客户由于双重降级保护模式(rg_double_degrade),如果可能,以下作可能有助于减少影响:

  1. 暂停任何备份、复制或密集 I/O 作业,直至 DPG 重建完成。
  2. 如果可能,将最活跃的主机故障切换到其他存储,直到 DPG 重建完成。
  3. 如果使用虚拟机,请关闭或迁移虚拟机,或者将主机置于维护模式。
  4. 如果可能,请使用 QoS 或主机端限制来减少重建期间阵列上的负载。

DPG 重建完成后,任何相关的性能影响都应得到解决。

其他信息

相关文章:
(可能需要以注册的戴尔支持用户身份登录才能查看这些文章。)

受影响的产品

XtremIO, XtremIO X2
文章属性
文章编号: 000355127
文章类型: Solution
上次修改时间: 18 9月 2025
版本:  3
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。