PowerFlexレプリケーション - 初回コピーの失敗
Summary: 初回コピーの進行状況がスタックする。 小さなボリュームでは100%の完了に成功し、大きなボリュームでは初期コピーを完了できない場合があります。
Symptoms
シナリオ
ソース システムとターゲット システムの間にネットワークの問題や低帯域幅がある場合は、初回コピー ステージが完了しないことがあります。
考えられるシナリオとして、初期コピーは小さいサイズのボリュームでは完了するが、大容量ボリュームを含むレプリケーション コンシステンシー グループ(RCG)では、ソース ボリュームとターゲット ボリュームの整合性が100%に達することができず、ソース ボリュームが新しい書き込みを受信するとソース ジャーナル容量使用率が増加します。
注:大容量ソース ボリュームで初回コピーを完了できる場合でも、オフラインの初回コピーが実行された場合でも、ネットワークに問題があり、ソース ボリュームで書き込み/再書き込みが行われると、RPOを満たさず、ソースとターゲット間の整合性が失われる可能性があります。
現象
-
初回コピーの進行状況がスタックしている。たとえば、「初回コピーの進行状況」が70%と永続的に表示される。
# scli --query_all_replication_pairs Local Id: bf50999700000000 Remote Id: bad02d5600000000 Copy Type: ONLINE_COPY Initial Copy State: ACTIVE Name: Rep Local Volume Id: 2236ff5400000001 Remote Volume Id: 831e94c40000000d Local Volume Name: vol_lir1 Remote Volume Name: vol_lir1 Initial Copy progress: 70% query_all_replication_pairs returned 1 Replication Pairs.
2- SDRトレースを確認すると、次のエラーが特定されます。ネットワークの問題
27/02 13:39:11.051442 (nil):netCon_ExchangeNewCon_CK:03589: ERROR: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148, Can't send NEW_CON message 27/02 13:39:11.051454 (nil):netCon_ConnectToPeer_CK:03519: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148 rollback connect 27/02 13:39:11.092475 (nil):netCon_IsKaNeeded:04338: ERROR: CON 0x7f42a80fb660 failed to send for 180 iterations. Marking as down . . . 27/02 13:39:12.628337 (nil):mapVolIO_ReportIOErrorIfNeeded:00469: Vol ID 0x21c5f4c600000032. Last vol network error status NOT_CONN(4) Reason (NOT_CONN) RC (NOT_CONN) Retry count (0) chan (0) Total IO millis (1010) 27/02 13:39:12.637268 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d59b17d8. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4) 27/02 13:39:12.637288 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d5a46030. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)
初期コピーの状態。小さなボリュームはOKですが、一度大きいボリュームは完了できません。
27/02 13:39:10.774502 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01871: (SDR_INITIAL_COPIER) Initial Copier - Got 2 SYSTEM_INITIAL_COPY CGs and 1 done VAEs 27/02 13:39:10.774520 0x7f42814f9db0:initialCopierCg_FillCgVaeDoneMsg:01963: (SDR_INITIAL_COPIER) Filled VAE Done MSG for Pair-Id de9ddcc900000001, GenNum: 2137, VaeId: 14 27/02 13:39:10.774633 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01921: (SDR_INITIAL_COPIER) Initial Copier - Total number of 1 VAEs will be reported as Done
3- SDR接続を確認すると、一部またはすべてのSDR間接続が切断されていると表示される場合があります。
scli --query_disconnection --print_all peer_system ID: ff74bce300000000 Name: DR_PFlex_GW SDR-SDR connectivity status: Multiple disconnections SDR ID: 2d01669c00000000 Name: Sdr-172.24.194.137 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669d00000001 Name: Sdr-172.24.194.138 is disconnected from: SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669e00000002 Name: Sdr-172.24.194.135 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669f00000003 Name: Sdr-172.24.194.136 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
4- すべてのSDRからSDRへの接続が正常に行われている場合でも、ネットワーク容量が悪く、初回コピーを正常に完了するための十分な帯域幅がない場合は、初期コピー失敗と同じ症状を伴う状態が発生する可能性があります。
2つのサイト間の帯域幅をテストするには、「iperf」などの異なるツールを使用できます。
帯域幅のテストは、サイト間のネットワークに影響を与える可能性があります - Site2SiteレプリケーションにWANを使用している場合は、このテストは営業時間外の時間帯に実施する必要があること、およびテストが実施されるネットワークがテスト期間中に使用できないことを考慮して、お客様に伝えます。
大量の転送など、適切な読み取り値が得られるのに十分な時間テストを実行することを確認します。また、このテストはお客様のネットワークに負荷をかけることにも注意してください。
サイト1
[root@112AX-7 ~]# iperf3 -s ----------------------------------------------------------- Server listening on 5201 ----------------------------------------------------------- Accepted connection from 172.24.1.174, port 54882 [ 5] local 172.24.1.173 port 5201 connected to 172.24.1.174 port 54886 [ ID] Interval Transfer Bandwidth [ 5] 0.00-1.00 sec 2.76 GBytes 23.7 Gbits/sec [ 5] 1.00-2.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 2.00-3.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 3.00-4.00 sec 2.87 GBytes 24.7 Gbits/sec [ 5] 4.00-5.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 5.00-5.04 sec 114 MBytes 24.7 Gbits/sec - - - - - - - - - - - - - - - - - - - - - - - - - [ ID] Interval Transfer Bandwidth [ 5] 0.00-5.04 sec 0.00 Bytes 0.00 bits/sec sender [ 5] 0.00-5.04 sec 14.4 GBytes 24.5 Gbits/sec receiver ----------------------------------------------------------- Server listening on 5201 -----------------------------------------------------------
サイト2
[root@112AX-8 ~]# iperf3 -c 172.24.1.173 -i 1 -t 5 Connecting to host 172.24.1.173, port 5201 [ 4] local 172.24.1.174 port 54886 connected to 172.24.1.173 port 5201 [ ID] Interval Transfer Bandwidth Retr Cwnd [ 4] 0.00-1.00 sec 2.87 GBytes 24.7 Gbits/sec 12 734 KBytes [ 4] 1.00-2.00 sec 2.88 GBytes 24.7 Gbits/sec 0 778 KBytes [ 4] 2.00-3.00 sec 2.88 GBytes 24.7 Gbits/sec 0 778 KBytes [ 4] 3.00-4.00 sec 2.87 GBytes 24.7 Gbits/sec 0 786 KBytes [ 4] 4.00-5.00 sec 2.88 GBytes 24.7 Gbits/sec 0 804 KBytes - - - - - - - - - - - - - - - - - - - - - - - - - [ ID] Interval Transfer Bandwidth Retr [ 4] 0.00-5.00 sec 14.4 GBytes 24.7 Gbits/sec 12 sender [ 4] 0.00-5.00 sec 14.4 GBytes 24.7 Gbits/sec receiveriperf Done.
問題
レプリケーションが確立されていません。サイト1はサイト2との整合性がなくなります。本番サイトからDRサイトへのレプリケーションがある場合、フェールオーバー シナリオがある場合、DRサイトは追い越できません。
Cause
SDRプロセスが開始され、両方のサイトで安定していることを確認します。開始されている場合、一般的な根本原因はサイト1とサイト2の間のネットワークの問題に関連している可能性が高いため、PowerFlexは初期コピーの問題に対して責任を負いません。そうは言っても、ネットワークの問題が処理されない限り、最初のコピーは機能しません。
問題は次のいずれかである可能性があります。
- SDR IPの構成が正しくない
- サイト1のSDRとサイト2のSDRの間にルートがありません
- SDR IPロールが正しく構成されていない
- ポート11088がブロックされていないことをファイアウォールが検証することを確認します
- サイト間のMTU構成が間違っている/整列していない
- その他のネットワークの問題
Resolution
対策
- 次のコマンドを実行して、SDR間の接続を検証します
scli --query_disconnection --print_all- 切断されたSDRがないことを確認します。 - すべてが接続されていても初期コピーが失敗する場合は、前述のiperfの例で説明したように、サイト1とサイト2の間で帯域幅テストを実行してください。
ネットワークの問題が見つからず、SDRからSDRへの接続に問題がなければ、帯域幅テストを実行し、テストが成功したにもかかわらず初期コピーが完了しない場合は、問題をPowerFlex L3にエスカレーションします。
注:ネットワークに問題がなく、ソース ボリュームが大きく、初回コピーが完了しない場合は、ユーザー マニュアルで「オフライン初回コピー」オプションを確認してください。
問題が発生するバージョン
レプリケーションを実行しているすべてのPowerFlexバージョン
修正バージョン
PowerFlex関連の問題ではない