XtremIO:XtremIO 陣列上的 SSD 故障效能影響
Summary: XtremIO 陣列上的 SSD 故障效能影響
Symptoms
XtremIO DPG 中的單一或多個 SSD 故障可能會對 XtremIO 陣列造成效能影響。為了理解導致這種情況的原因,我們必須解釋 DPG 操作和 DPG 狀態:
- 主要 DPG 行動:
DPG 重建:
- 時間:當 SSD 故障時
- 為什麼:還原雙同位檢查保護
DPG 整合:
- 時間:當技術人員將故障的 SSD 更換為全新磁碟機時
- 為什麼:新增 SSD 至 DPG
DPG國家:
- 狀況良好:雙重同位檢查保護
- 單一降級:單同位檢查保護
- 雙重降級:無同位檢查保護
- 失敗:資料遺失
XtremIO 是內容感知儲存裝置 (又稱 CAS)。因此,DPG 的所有 I/O 操作在統計上都是隨機的,這一事實使我們能夠實現相同的性能,而不管使用者的隨機或順序工作負載如何。另一個好處是,如果 SSD 發生故障,群集不需要將頁面返回到其原始位置。
其他不是 CAS 的陣列確實對順序邏輯數據和順序物理數據都有要求;如果不將數據返回到其原始位置,則會丟失順序 I/O 性能。
DPG 重建說明:
當 SSD 移除或 SYM 發出自動 DPG 重新建置失敗時,DPG 重新建置需要執行兩個作業:
第 1 階段:恢復所有丟失的數據並將其寫入其他位置:
丟失的頁面(數據+奇偶校驗)恢復到 DPG(新的寫入流程)
更新 PLBM/HMD 表。
第 2 階段:更新所有 stripe 的同位檢查資訊:
移動資料/同位檢查頁面需要更新所有同位檢查 (橫跨所有等量)
這兩種作業都需要更新所有等候檢查,以節省時間並減少寫入。兩者都在單個反覆運算上執行。
DPG 整合說明:將新的 SSD 新增至 DPG 需要手動介入。
- 需要技術人員的手動介入 (在 DAE 插槽中放置新的 SSD)
- 幾乎沒有/沒有嚴重性 (與重建相反)
收到要求後,DPG 整合程序會平衡同位檢查區塊。只有同位檢查區塊會復原至原始 SSD (以達到平均的同位檢查分佈)。這是透過指派、新增與整合新的 SSD 來完成。
Cause
XtremIO DPG 中有單一或多個 SSD 故障
Resolution
根據上述資訊,在 DPG 重建/集成期間,群集資源利用率會有一些增加,但通常不會有明顯的性能或延遲增加。但是,在 雙 DPG 重建 期間,集群會將 幾乎所有 資源集中在儘快重建故障的 SSD 上,以確保數據完整性並避免數據丟失。這是設計的預期,在完成所有作業後,效能應會恢復正常效能。