PowerFlexレプリケーション - 初回コピーの失敗

Summary: 初回コピーの進行状況がスタックする。 小さなボリュームでは100%の完了に成功し、大きなボリュームでは初期コピーを完了できない場合があります。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

シナリオ

ソース システムとターゲット システムの間にネットワークの問題や低帯域幅がある場合は、初回コピー ステージが完了しないことがあります。

考えられるシナリオとして、初期コピーは小さいサイズのボリュームでは完了するが、大容量ボリュームを含むレプリケーション コンシステンシー グループ(RCG)では、ソース ボリュームとターゲット ボリュームの整合性が100%に達することができず、ソース ボリュームが新しい書き込みを受信するとソース ジャーナル容量使用率が増加します。

注:大容量ソース ボリュームで初回コピーを完了できる場合でも、オフラインの初回コピーが実行された場合でも、ネットワークに問題があり、ソース ボリュームで書き込み/再書き込みが行われると、RPOを満たさず、ソースとターゲット間の整合性が失われる可能性があります。 

現象

  1. 初回コピーの進行状況がスタックしている。たとえば、「初回コピーの進行状況」が70%と永続的に表示される。 

 # scli --query_all_replication_pairs
Local Id: bf50999700000000 Remote Id: bad02d5600000000 Copy Type: ONLINE_COPY Initial Copy State: ACTIVE Name: Rep
Local Volume Id: 2236ff5400000001 Remote Volume Id: 831e94c40000000d Local Volume Name: vol_lir1 Remote Volume Name: vol_lir1
Initial Copy progress: 70%
query_all_replication_pairs returned 1 Replication Pairs.

2- SDRトレースを確認すると、次のエラーが特定されます。ネットワークの問題

 27/02 13:39:11.051442 (nil):netCon_ExchangeNewCon_CK:03589: ERROR: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148, Can't send NEW_CON message
27/02 13:39:11.051454 (nil):netCon_ConnectToPeer_CK:03519: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148 rollback connect
27/02 13:39:11.092475 (nil):netCon_IsKaNeeded:04338: ERROR: CON 0x7f42a80fb660 failed to send for 180 iterations. Marking as down
.
.
.
27/02 13:39:12.628337 (nil):mapVolIO_ReportIOErrorIfNeeded:00469: Vol ID 0x21c5f4c600000032. Last vol network error status NOT_CONN(4) Reason (NOT_CONN) RC (NOT_CONN) Retry count (0) chan (0) Total IO millis (1010)
27/02 13:39:12.637268 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d59b17d8. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)
27/02 13:39:12.637288 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d5a46030. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)

初期コピーの状態。小さなボリュームはOKですが、一度大きいボリュームは完了できません。

 27/02 13:39:10.774502 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01871: (SDR_INITIAL_COPIER) Initial Copier - Got 2 SYSTEM_INITIAL_COPY CGs and 1 done VAEs
27/02 13:39:10.774520 0x7f42814f9db0:initialCopierCg_FillCgVaeDoneMsg:01963: (SDR_INITIAL_COPIER) Filled VAE Done MSG for Pair-Id de9ddcc900000001, GenNum: 2137, VaeId: 14
27/02 13:39:10.774633 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01921: (SDR_INITIAL_COPIER) Initial Copier - Total number of 1 VAEs will be reported as Done

3- SDR接続を確認すると、一部またはすべてのSDR間接続が切断されていると表示される場合があります。

 scli --query_disconnection --print_all
peer_system ID: ff74bce300000000 Name: DR_PFlex_GW
SDR-SDR connectivity status: Multiple disconnections
SDR ID: 2d01669c00000000 Name: Sdr-172.24.194.137 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669d00000001 Name: Sdr-172.24.194.138 is disconnected from:
	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669e00000002 Name: Sdr-172.24.194.135 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669f00000003 Name: Sdr-172.24.194.136 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7

 

4- すべてのSDRからSDRへの接続が正常に行われている場合でも、ネットワーク容量が悪く、初回コピーを正常に完了するための十分な帯域幅がない場合は、初期コピー失敗と同じ症状を伴う状態が発生する可能性があります。

2つのサイト間の帯域幅をテストするには、「iperf」などの異なるツールを使用できます。

帯域幅のテストは、サイト間のネットワークに影響を与える可能性があります - Site2SiteレプリケーションにWANを使用している場合は、このテストは営業時間外の時間帯に実施する必要があること、およびテストが実施されるネットワークがテスト期間中に使用できないことを考慮して、お客様に伝えます。 

大量の転送など、適切な読み取り値が得られるのに十分な時間テストを実行することを確認します。また、このテストはお客様のネットワークに負荷をかけることにも注意してください。

 サイト1

 [root@112AX-7 ~]# iperf3 -s
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------
Accepted connection from 172.24.1.174, port 54882
[  5] local 172.24.1.173 port 5201 connected to 172.24.1.174 port 54886
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-1.00   sec  2.76 GBytes  23.7 Gbits/sec                  
[  5]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec                  
[  5]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   5.00-5.04   sec   114 MBytes  24.7 Gbits/sec                  
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-5.04   sec  0.00 Bytes  0.00 bits/sec                  sender
[  5]   0.00-5.04   sec  14.4 GBytes  24.5 Gbits/sec                  receiver
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------

サイト2

 [root@112AX-8 ~]# iperf3 -c 172.24.1.173 -i 1 -t 5
Connecting to host 172.24.1.173, port 5201
[  4] local 172.24.1.174 port 54886 connected to 172.24.1.173 port 5201
[ ID] Interval           Transfer     Bandwidth       Retr  Cwnd
[  4]   0.00-1.00   sec  2.87 GBytes  24.7 Gbits/sec   12    734 KBytes       
[  4]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec    0    786 KBytes       
[  4]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec    0    804 KBytes       
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth       Retr
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec   12             sender
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec                  receiveriperf Done.

 

問題

レプリケーションが確立されていません。サイト1はサイト2との整合性がなくなります。本番サイトからDRサイトへのレプリケーションがある場合、フェールオーバー シナリオがある場合、DRサイトは追い越できません。

Cause

SDRプロセスが開始され、両方のサイトで安定していることを確認します。開始されている場合、一般的な根本原因はサイト1とサイト2の間のネットワークの問題に関連している可能性が高いため、PowerFlexは初期コピーの問題に対して責任を負いません。そうは言っても、ネットワークの問題が処理されない限り、最初のコピーは機能しません。

問題は次のいずれかである可能性があります。

  1. SDR IPの構成が正しくない
  2. サイト1のSDRとサイト2のSDRの間にルートがありません
  3. SDR IPロールが正しく構成されていない
  4. ポート11088がブロックされていないことをファイアウォールが検証することを確認します
  5. サイト間のMTU構成が間違っている/整列していない
  6. その他のネットワークの問題

Resolution

対策

  1. 次のコマンドを実行して、SDR間の接続を検証します scli --query_disconnection --print_all - 切断されたSDRがないことを確認します。
  2. すべてが接続されていても初期コピーが失敗する場合は、前述のiperfの例で説明したように、サイト1とサイト2の間で帯域幅テストを実行してください。 

ネットワークの問題が見つからず、SDRからSDRへの接続に問題がなければ、帯域幅テストを実行し、テストが成功したにもかかわらず初期コピーが完了しない場合は、問題をPowerFlex L3にエスカレーションします。

注:ネットワークに問題がなく、ソース ボリュームが大きく、初回コピーが完了しない場合は、ユーザー マニュアルで「オフライン初回コピー」オプションを確認してください。  

問題が発生するバージョン

レプリケーションを実行しているすべてのPowerFlexバージョン

修正バージョン

PowerFlex関連の問題ではない

Affected Products

PowerFlex rack, ScaleIO
Article Properties
Article Number: 000204785
Article Type: Solution
Last Modified: 21 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.