PowerFlex-replicatie - initiële kopieerfout

Summary: De aanvankelijke voortgang van het kopiëren is vastgelopen. Soms lukt het voor kleine volumes om 100% voltooiing te bereiken, terwijl grote volumes de oorspronkelijke kopie niet kunnen voltooien. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Scenario

Als er netwerkproblemen zijn of een lage bandbreedte tussen het bron- en het doelsysteem, wordt de eerste kopieerfase mogelijk nooit voltooid.

Een mogelijk scenario is dat de eerste kopie wordt voltooid voor kleine volumes, maar op replicatieconsistentiegroepen (RCG's) die grote volumes bevatten, kunnen de bron- en doelvolumes geen 100% consistentie bereiken en neemt het capaciteitsgebruik van het bronjournaal toe naarmate nieuwe schrijfbewerkingen worden ontvangen door het bronvolume.

Opmerking: Zelfs als het grote bronvolume de eerste kopie kan voltooien, of als er een offline eerste kopie is gemaakt, als er netwerkproblemen zijn en schrijf/herschrijvingen uitvoeren op het bronvolume, halen we de RPO mogelijk niet en verliezen we de consistentie tussen bron en doel. 

Symptomen

  1. De initiële voortgang van de kopie is vastgelopen, bijvoorbeeld: de "Initial Copy progress" geeft permanent 70% weer: 

 # scli --query_all_replication_pairs
Local Id: bf50999700000000 Remote Id: bad02d5600000000 Copy Type: ONLINE_COPY Initial Copy State: ACTIVE Name: Rep
Local Volume Id: 2236ff5400000001 Remote Volume Id: 831e94c40000000d Local Volume Name: vol_lir1 Remote Volume Name: vol_lir1
Initial Copy progress: 70%
query_all_replication_pairs returned 1 Replication Pairs.

2- Bij het controleren van de SDR-sporen worden de volgende fouten geïdentificeerd: Netwerkproblemen

 27/02 13:39:11.051442 (nil):netCon_ExchangeNewCon_CK:03589: ERROR: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148, Can't send NEW_CON message
27/02 13:39:11.051454 (nil):netCon_ConnectToPeer_CK:03519: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148 rollback connect
27/02 13:39:11.092475 (nil):netCon_IsKaNeeded:04338: ERROR: CON 0x7f42a80fb660 failed to send for 180 iterations. Marking as down
.
.
.
27/02 13:39:12.628337 (nil):mapVolIO_ReportIOErrorIfNeeded:00469: Vol ID 0x21c5f4c600000032. Last vol network error status NOT_CONN(4) Reason (NOT_CONN) RC (NOT_CONN) Retry count (0) chan (0) Total IO millis (1010)
27/02 13:39:12.637268 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d59b17d8. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)
27/02 13:39:12.637288 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d5a46030. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)

De eerste kopiestatus, waarbij kleine volumes OK zijn, maar grotere exemplaren niet kunnen worden voltooid.

 27/02 13:39:10.774502 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01871: (SDR_INITIAL_COPIER) Initial Copier - Got 2 SYSTEM_INITIAL_COPY CGs and 1 done VAEs
27/02 13:39:10.774520 0x7f42814f9db0:initialCopierCg_FillCgVaeDoneMsg:01963: (SDR_INITIAL_COPIER) Filled VAE Done MSG for Pair-Id de9ddcc900000001, GenNum: 2137, VaeId: 14
27/02 13:39:10.774633 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01921: (SDR_INITIAL_COPIER) Initial Copier - Total number of 1 VAEs will be reported as Done

3- Als u de SDR-connectiviteit controleert, ziet u mogelijk dat sommige of alle SDR-naar-SDR-verbindingen zijn verbroken.

 scli --query_disconnection --print_all
peer_system ID: ff74bce300000000 Name: DR_PFlex_GW
SDR-SDR connectivity status: Multiple disconnections
SDR ID: 2d01669c00000000 Name: Sdr-172.24.194.137 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669d00000001 Name: Sdr-172.24.194.138 is disconnected from:
	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669e00000002 Name: Sdr-172.24.194.135 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669f00000003 Name: Sdr-172.24.194.136 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7

 

4- Zelfs als alle SDR-naar-SDR-verbindingen in orde zijn, kan een mogelijke toestand met dezelfde symptomen van een fout bij de eerste kopie optreden als de netwerkcapaciteit slecht is en er niet genoeg bandbreedte is om de eerste kopie met succes te voltooien.

Om de bandbreedte tussen de twee sites te testen, kunt u verschillende tools gebruiken, bijvoorbeeld "iperf":

Het testen van de bandbreedte kan van invloed zijn op het netwerk tussen de sites. Als er sprake is van WAN-gebruik voor Site2Site-replicatie, laat de klant dan weten dat deze test moet worden uitgevoerd tijdens lage kantooruren en aangezien het netwerk waarvoor de test wordt uitgevoerd niet bruikbaar is tijdens de duur van de test. 

Controleer of u de test lang genoeg uitvoert om de juiste metingen te hebben, zoals bij het overdragen van grote volumes, en houd er ook rekening mee dat deze test het netwerk van klanten belast.

 Locatie 1

 [root@112AX-7 ~]# iperf3 -s
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------
Accepted connection from 172.24.1.174, port 54882
[  5] local 172.24.1.173 port 5201 connected to 172.24.1.174 port 54886
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-1.00   sec  2.76 GBytes  23.7 Gbits/sec                  
[  5]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec                  
[  5]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   5.00-5.04   sec   114 MBytes  24.7 Gbits/sec                  
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-5.04   sec  0.00 Bytes  0.00 bits/sec                  sender
[  5]   0.00-5.04   sec  14.4 GBytes  24.5 Gbits/sec                  receiver
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------

Locatie 2

 [root@112AX-8 ~]# iperf3 -c 172.24.1.173 -i 1 -t 5
Connecting to host 172.24.1.173, port 5201
[  4] local 172.24.1.174 port 54886 connected to 172.24.1.173 port 5201
[ ID] Interval           Transfer     Bandwidth       Retr  Cwnd
[  4]   0.00-1.00   sec  2.87 GBytes  24.7 Gbits/sec   12    734 KBytes       
[  4]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec    0    786 KBytes       
[  4]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec    0    804 KBytes       
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth       Retr
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec   12             sender
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec                  receiveriperf Done.

 

Impact

Replicatie is niet ingesteld - site1 is niet consistent met site2. Als er replicatie is van een productie- naar een DR-site, kan de DR-site niet worden ingehaald als er een failoverscenario is.

Cause

Bevestig dat het SDR-proces op beide sites is gestart en stabiel is - als dit het geval is, is de algemene hoofdoorzaak hoogstwaarschijnlijk gerelateerd aan netwerkproblemen tussen site1 en site2, en daarom is PowerFlex niet verantwoordelijk voor het initiële kopieerprobleem. Dat gezegd hebbende, zal de eerste kopie niet werken tenzij de netwerkproblemen worden behandeld.

Het probleem kan een van de volgende zijn:

  1. Verkeerde configuratie van de SDR-IP's
  2. Geen route tussen SDR's onsite1 en SDR's onsite2
  3. SDR IP-rollen zijn verkeerd geconfigureerd
  4. Controleer of de firewall valideert dat poort 11088 niet is geblokkeerd
  5. Verkeerde/niet-uitgelijnde MTU-configuratie tussen de sites
  6. Elk ander netwerkprobleem

Resolution

Tijdelijke oplossing

  1. Om de connectiviteit tussen SDR's te valideren, voert u deze opdracht uit: scli --query_disconnection --print_all - Controleer of er geen losgekoppelde SDR's zijn.
  2. Als alles zijn verbonden, maar de eerste kopie nog steeds mislukt, voert u een bandbreedtetest uit tussen site1 en site2 zoals hierboven beschreven in het iperf-voorbeeld

Als er geen netwerkproblemen zijn gevonden en de verbinding van SDR naar SDR is prima, voert u een bandbreedtetest uit en als de test succesvol is en de eerste kopie niet kan worden voltooid, escaleert u het probleem naar PowerFlex L3.

Opmerking: Als het netwerk in orde is, maar het bronvolume groot is en de eerste kopie niet wordt voltooid, raadpleeg dan de gebruikershandleiding voor een optie "offline eerste kopie".  

Versies waarop dit van toepassing is

Alle PowerFlex-versies waarop replicatie wordt uitgevoerd

Opgelost in versie

Geen PowerFlex-gerelateerd probleem

Affected Products

PowerFlex rack, ScaleIO
Article Properties
Article Number: 000204785
Article Type: Solution
Last Modified: 21 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.