XtremIO:DPG 會同時發生兩個 SSD 故障,對效能造成影響
Summary: 本文提供 XtremIO 如何管理資料保護群組 (DPG) 中兩個同時發生的固態硬碟 (SSD) 故障的資訊,並說明其如何影響效能。它還提供了一些有關如何在重建 DPG 時説明降低性能影響的建議。
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
在 DPG 從先前的 SSD 故障完成重新建置之前,第二個 SSD 發生故障時,便會出現效能影響。
Cause
在 XtremIO 上,如果一個 SSD 故障,DPG 會在其餘健全的 SSD 上重新建置,以維持資料保護。單一 SSD 故障的 DPG 重建程序與兩個同時發生 SSD 故障的程序不同。
當只有一個 SSD 故障時:
- 系統會進入單一降級狀態,且只有一個同位檢查區塊可復原資料。
- DPG 重新建置會開始從剩餘健全 SSD 上的故障 SSD 重新建置資料,以回到雙同位檢查區塊狀態以進行資料保護。
- 當 DPG 從單一 SSD 故障重新建置時,重新建置程序會在背景中完成,且傳入的 I/O 仍會優先處理。
當相同 DPG 中兩個 SSD 同時故障時:
- 系統會進入雙重降級狀態,表示不會保留同位檢查保護。
- 資料遺失的風險會大幅增加,因此系統會優先進行復原作業。這會使用更多的 CPU,以便更快地重建 DPG。
- XtremIO 會將重建作業的優先順序從使用者 I/O 之上排定,這會消耗 CPU 和記憶體資源以避免資料遺失。
- 這種類型的重建需要大量的元數據更新。它必須計算每個受影響 Stripe 的同位檢查,並執行資料完整性檢查,以協助確保沒有損毀。
重建 DPG 時可能出現的警示:
| 警示名稱 | 症狀代碼 | 說明 |
|---|---|---|
rebuild_0_to_20_done |
XTR0800211 |
DPG 重新建置已經開始。 |
rebuild_20_to_40_done |
XTR0800221 |
DPG 重新建置進行中。超過20%的重建工作已經完成。 |
rebuild_40_to_60_done |
XTR0800231 |
DPG 重新建置進行中。超過40%的重建工作已經完成。 |
rebuild_60_to_80_done |
XTR0800241 |
DPG 重新建置進行中。超過60%的重建工作已經完成。 |
rebuild_99_done |
XTR0800251 |
DPG 重新建置進行中。超過80%的重建工作已經完成。 |
rg_state_integrate |
XTR0800904 |
DPG 正在執行 SSD 整合。 |
ssd_assigning_to_rg |
XTR0900106 |
SSD 正指派給 DPG。 |
CLI 命令 show-data-protection-groups 也可以執行以檢查 DPG 重建的進度:
xmcli (tech)> show-data-protection-groups Name Index Cluster-Name Index State Num-Of-SSDs Useful-SSD-Space User-Space User-Space-In-Use Rebuild-Progress Preparation-Progress Proactive-Metadata-Loading Rebuild-Prevention Brick-Name Index X1-DPG-1 1 LAB-XIO001 1 normal 28 97.809T 85.690T 65.344T 0 0 False none X1 1 X2-DPG-1 3 LAB-XIO001 1 double_degraded 26 97.809T 83.690T 65.359T 0 54 False assigning_disk X2 2
Resolution
注意:請務必在 SSD 更換故障時排定優先順序。更換 SSD 時,請等待 DPG 完成重建,然後再繼續進行任何其他更換。
當相同 DPG 中的兩個 SSD 同時故障時,效能可能會因為重建同位檢查所耗用的資源而受到影響。沒有辦法停止 DPG 重建,也沒有加速它的命令。但是,如果客戶由於雙重降級保護模式而遇到明顯的性能下降(rg_double_degrade),如果可能,以下操作可能有助於減少影響:
- 暫停任何備份、複製或密集 I/O 作業,直到 DPG 重建完成。
- 如果可能,請將大多數活動主機故障轉移到其他存儲,直到 DPG 重建完成。
- 如果使用 VM,請關閉或遷移 VM,或讓主機進入維護模式。
- 如有可能,請使用 QoS 或主機端限制,以在重建期間減少陣列上的負載。
DPG 重新建置完成後,任何相關的效能影響應已解決。
Additional Information
相關的文章:
(可能需要以已註冊的 Dell 支援使用者身分登入才能檢視這些文章。)
Affected Products
XtremIO, XtremIO X2Article Properties
Article Number: 000355127
Article Type: Solution
Last Modified: 18 Sept 2025
Version: 3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.