Dell Unity:大型或遞增的快照佇列會導致效能問題
Summary: Dell Unity:大型或不斷增加的快照佇列會導致效能問題,以及儲存處理器 (SP) CPU 高
Symptoms
- 恢復點目標 (RPO) 的值降低到被認為更具侵略性的值(即 10 分鐘)。」
- “恢復點目標 (RPO) 是行業公認的術語,表示故障中可能丟失的可接受數據量(以時間單位為單位)。設置異步複製會話時,可以根據 RPO 配置自動同步。您可以指定最少 5 分鐘到最多 1440 分鐘(24 小時)的 RPO。預設 RPO 設定為 60 分鐘 (1 小時) 間隔。針對同步複製,RPO 會固定為 0。」
- LUN 有許多快照處於「正在銷毀」狀態。
- 處於「正在銷毀」狀態的快照數目會隨著時間逐漸增加。
- 沒有相關 IOPS/頻寬工作負載的高 SP CPU。
- LUN 和後端磁碟機有排隊和提升的回應時間。
您可以在 Unisphere 的「區塊」區段中查看。請務必新增「快照」欄,以取得每個 LUN 的讀數。如果您看到一個 LUN 或多個 LUN 列出許多快照,則代表一些情況
前往個別 LUN,選取「快照」標籤,檢查「狀態」(將「銷毀」) 和「拍攝者」(將會是「複寫」) 以進行確認:
Cause
排隊生成的原因可能有很多。其中一個主要原因可歸因於 RPO 被認為「過於激進」。
原生非同步區塊複寫:
原生異步區塊複製會使用兩個快照之間的增量來傳輸資料。在複製工作階段的生命週期內,傳輸變更時會進行多次快照「重新整理」。
當快照被刷新時,它確實被刪除並在後台重新創建。
最值得注意的問題是 SP CPU 消耗以及與快照功能相關聯的額外後端 I/O。
Unity 陣列無法在相對合理的時間內完全刪除快照,導致進入「待刪除」狀態的快照速率遠遠超過在指定時間內完全刪除快照的速率。隨著 RPO 值的降低,這會增加在給定時間內創建或刪除快照的數量。
Resolution
對於處於銷毀狀態的快照數量最多的 LUN,請將 RPO 至少設置為預設值(60 分鐘),直到快照的刪除可以趕上。您可能希望將值保留在此新的 RPO 中,具體取決於排隊的快照數並據此進行判斷。
「Dell Technologies 建議在處於活動快照作用中的混合式集區中,納入快閃式記憶體層。
快照會增加系統的整體 CPU 負載,並增加儲存集區的整體磁碟機 IOPS。 快照還使用池容量來存儲快照跟蹤的舊數據,這會增加池中使用的容量,直到刪除快照為止。 在規劃存儲池的性能和容量要求時,請考慮快照的開銷。
在儲存物件上啟用快照之前,建議您監控系統,並確保現有資源能夠滿足額外的工作負載要求 (請參閱表 2 的硬體功能指南一節)。 一次在幾個儲存物件上啟用快照,然後監控系統以確保其仍在建議的操作範圍內,然後再啟用更多快照。
建議錯開快照作業 (建立、刪除等)。 這可以通過為不同的存儲物件集使用不同的快照計劃來實現。 也建議您在完成任何 FAST VP 重新安置後,排定快照作業。
系統會非同步刪除快照;正在刪除快照時,會將其標記為「正在銷毀」。 如果系統隨著時間的推移累積「銷毀」快照,則可能表示現有快照計劃過於繁忙;降低拍攝快照的頻率可能會提供更可預測的性能級別。
Dell Unity 將節流快照刪除作業,以減少對主機 I/O 的影響。 在系統使用率較低期間,快照刪除的速度會更快。」Dell Unity:最佳實務指南
Additional Information