PowerFlex:使用複寫時的用戶端 IO 錯誤
Summary: 用戶端伺服器在處理 PowerFlex 支援的裝置時發生 I/O 錯誤。整體後端 (MDM 和 SDS) 似乎狀況良好。 正在使用 PowerFlex 複寫,但一或多個 RCG 發生一些 RPO 錯誤。
Symptoms
- 無降級或故障容量
- 沒有解耦 SDS,也沒有 SDS 裝置回報錯誤
- 沒有斷開連接的 MDM
- 正在使用複寫功能
UI 中的一或多個警示回報下列錯誤:
Minor - Remote Consistency Group RPO Exceeded
Major - The RCG consistent image is too large to be consumed by the destination in one piece.
MDM 事件記錄可能會報告下列情況:
2024-06-11 15:55:56.592000:0001566:RPL_PD_CAP_UTILIZATION_MINOR WARNING Protection Domain ID <pd_id> Replication journal capacity is at MINOR utilization level
...
2024-06-11 16:20:12.848000:0001567:RPL_PD_CAP_UTILIZATION_MAJOR ERROR Protection Domain ID <pd_id> Replication journal capacity is at MAJOR utilization level
...
2024-06-11 17:19:57.272000:0001584:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at VERY_HIGH utilization level
...
2024-06-11 17:52:26.352000:0001585:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at CRITICAL utilization level
...
2024-06-11 16:25:14.381000:0001576:RPL_CG_MOVED_TO_SLIM_MODE INFO Replication Consistency Group ID <rcg_id> entered slim mode
...
2024-06-11 18:27:29.738000:0001586:SDR_CRITICAL_CAP_CHANGE ERROR SDR ID <sdr_id>) handling user data changed discarded old user data and stopped to accumulate new user data due critical capacity
影響
用戶端無法訪問正在複製的卷。
Cause
當 MDM 和 SDR 元件在與日誌容量相關的內部計數器上存在分歧時,可能會發生罕見的軟體缺陷。
此差異可能會導致 MDM 在 SDR 容量已滿時無法取消配置 (釋放) 額外的日誌容量,可能會導致使用 PowerFlex 支援的裝置的用戶端伺服器上發生 I/O 錯誤。
Resolution
必須滾動式重新開機所有 SDR 元件,且必須切換來源系統上的 MDM 擁有權,才能解決問題。
在 目標站台上重新啟動 SDR 元件
1.識別所有 SDR 並驗證其處於健全狀態,然後再繼續執行步驟 2:
scli --query_all_sdr
2.在 SDR 上進入維護模式:
scli --enter_sdr_maintenance_mode --sdr_name <name>
3.執行步驟 1 中的命令,驗證 SDR 是否處於維護模式。
4.重新啟動 SDR 元件
pkill sdr
5.對來源 網站上的所有 SDR 重複步驟 1-4。
6.從維護模式結束 SDR:
scli --exit_sdr_maintenance_mode --sdr_name <name>
7.當所有 SDR 重新啟動並處於健全狀態後,切換 MDM 擁有權:
#3.x
scli --switch_mdm_ownership --new_master_mdm_name <name>
#4.x
scli --switch_mdm_ownership --new_primary_mdm_name <name>
8.驗證是否不再報告客戶端伺服器上的 I/O 錯誤。 如果客戶機已進入唯讀檔案系統,則客戶機伺服器可能需要重新引導。
受影響的版本
PowerFlex 3.x
PFMP 4.x
已修正問題的版本
PowerFlex 4.5.3
PowerFlex 4.5.4 - 升級至 4.5.4 HF1
PowerFlex 4.5.5 - 無可用
修正 PowerFlex 4.5.6 及更新版本
Additional Information
受影響的版本
PowerFlex 3.x
PowerFlex 4.x
已修正問題的版本
PowerFlex 4.5.3
、PowerFlex 4.5.4 - 升級至 4.5.4 HF1
、PowerFlex 4.5.5 - 無可用修正。
PowerFlex 4.5.6 及更新版本