PowerFlex:レプリケーション使用時のクライアントIOエラー
Summary: クライアント サーバーで、PowerFlexベースのデバイスに対してI/Oエラーが発生しています。バックエンド全体(MDMとSDS)は正常であると考えられます。 PowerFlexレプリケーションが使用されており、1つ以上のRCGに対してRPOエラーが発生しています。
Symptoms
- 容量の低下または障害の発生なし
- デカップリングされたSDSはなく、エラーを報告したSDSデバイスもありませんでした
- 切断されたMDMはありません
- レプリケーション機能が使用されています
次のエラーを報告するUIの1つ以上のアラート:
Minor - Remote Consistency Group RPO Exceeded
Major - The RCG consistent image is too large to be consumed by the destination in one piece.
MDMイベント ログでは、次のことが報告される場合があります。
2024-06-11 15:55:56.592000:0001566:RPL_PD_CAP_UTILIZATION_MINOR WARNING Protection Domain ID <pd_id> Replication journal capacity is at MINOR utilization level
...
2024-06-11 16:20:12.848000:0001567:RPL_PD_CAP_UTILIZATION_MAJOR ERROR Protection Domain ID <pd_id> Replication journal capacity is at MAJOR utilization level
...
2024-06-11 17:19:57.272000:0001584:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at VERY_HIGH utilization level
...
2024-06-11 17:52:26.352000:0001585:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at CRITICAL utilization level
...
2024-06-11 16:25:14.381000:0001576:RPL_CG_MOVED_TO_SLIM_MODE INFO Replication Consistency Group ID <rcg_id> entered slim mode
...
2024-06-11 18:27:29.738000:0001586:SDR_CRITICAL_CAP_CHANGE ERROR SDR ID <sdr_id>) handling user data changed discarded old user data and stopped to accumulate new user data due critical capacity
問題
クライアントは、レプリケートされているボリュームにアクセスできません。
Cause
まれなソフトウェアの不具合が、ジャーナル容量に関連する内部カウンターでMDMとSDRコンポーネントが一致しない場合に発生する可能性があります。
この不一致により、SDRの容量がいっぱいになったときにMDMが追加のジャーナル容量の割り当て解除(解放)に失敗し、PowerFlexによってバッキングされたデバイスを使用しているクライアント サーバーでI/Oエラーが発生する可能性があります。
Resolution
この問題を解決するには、すべてのSDRコンポーネントのローリング再起動が必要であり、ソース システム上のMDM所有権を切り替える必要があります。
ターゲット サイトでSDRコンポーネントを再起動します
1.ステップ2に進む前に、すべてのSDRを特定し、それらが正常な状態であることを確認します。
scli --query_all_sdr
2.SDRでメンテナンス モードを開始します。
scli --enter_sdr_maintenance_mode --sdr_name <name>
3.ステップ1のコマンドを実行して、SDRがメンテナンス モードになっていることを確認します。
4.SDRコンポーネントを再起動します
pkill sdr
5.ソース サイト上のすべてのSDRについて、手順1〜4 を繰り返します。
6.SDRのメンテナンス モードを終了します。
scli --exit_sdr_maintenance_mode --sdr_name <name>
7.すべてのSDRが再起動され、正常な状態になったら、MDM所有権を切り替えます。
#3.x
scli --switch_mdm_ownership --new_master_mdm_name <name>
#4.x
scli --switch_mdm_ownership --new_primary_mdm_name <name>
8.クライアント サーバー上のI/Oエラーが報告されなくなったことを確認します。 クライアントが読み取り専用ファイル システムに入った場合、クライアント サーバーの再起動が必要になる場合があります。
問題が発生するバージョン
PowerFlex 3.x
PFMPの4.x
修正バージョン
PowerFlex 4.5.3
PowerFlex 4.5.4 - 4.5.4 HF1へのアップグレード
PowerFlex 4.5.5 - 修正は利用不可
PowerFlex 4.5.6以降
Additional Information
問題が発生するバージョン
PowerFlex 3.x
PowerFlex 4.x
修正バージョン
PowerFlex 4.5.3
PowerFlex 4.5.4 - 4.5.4 HF1
PowerFlex 4.5.5へのアップグレード - 修正はありません
PowerFlex 4.5.6以降