XtremIO:SSD 故障对 XtremIO 阵列的性能影响
Summary: SSD 故障对 XtremIO 阵列的性能影响
Symptoms
XtremIO DPG 中的单个或多个 SSD 故障可能会对 XtremIO 阵列造成性能影响。为了理解导致这种情况的原因,我们必须解释 DPG Operations 和 DPG States:
- DPG主要作:
DPG 重建:
- 时间:当 SSD 发生故障时
- 为什么:恢复双重奇偶校验保护
DPG 集成:
- 时间:当技术人员将故障 SSD 更换为全新驱动器时
- 为什么:将新 SSD 添加到 DPG 中
DPG 表示:
- 正常:双重奇偶校验保护
- 单个降级:单奇偶校验保护
- 双重降级:无奇偶校验保护
- Failed:数据丢失
XtremIO 是一种内容感知型存储(也称为 CAS)。因此,DPG 的所有 I/O作在统计上都是随机的,这一事实使我们能够实现相同的性能,而不管用户的工作负载是随机还是顺序。另一个好处是,如果 SSD 出现故障,群集不需要将页面返回到其原始位置。
其他非 CAS 阵列确实对顺序逻辑数据和顺序物理数据都有要求;如果不将数据返回到其原始位置,则会失去顺序 I/O 性能。
DPG Rebuild 解释:
当 SSD 卸下或出现故障时,SYM 发出自动 DPG 重建,DPG 重建需要执行两个作:
阶段 1:恢复所有丢失的数据并将其写入其他位置:
丢失的页面(数据 + 奇偶校验)将恢复到 DPG(新的写入流)
PLBM/HMD 表已更新。
阶段 2:更新所有条带的奇偶校验信息:
移动数据/奇偶校验页面需要更新所有奇偶校验(跨所有条带)
这两种作都需要更新所有条带,以节省时间并减少写入。两者都在单个迭代中执行。
DPG 集成说明:将新 SSD 添加到 DPG 需要手动干预。
- 它需要技术人员的手动干预(将新的 SSD 放入 DAE 插槽中)
- 很少/没有关键性(与重建相反)
请求后,DPG 集成过程会平衡奇偶校验块。只有奇偶校验数据块会恢复到原始 SSD(以实现均匀的奇偶校验分布)。这是通过分配、添加和集成新的SSD来完成的。
Cause
XtremIO DPG 中的单个或多个 SSD 故障
Resolution
根据上述信息,在 DPG 重建/集成期间,群集资源利用率会有一些提高,但通常不应有明显的性能或延迟增加。但是,在 双 DPG 重建 期间,群集会集中其 几乎所有 资源以尽快重建故障 SSD,以确保数据完整性并避免数据丢失。这是设计预期,并且在完成所有作后性能应恢复正常。