PowerFlex-replikering – fel vid första kopian

Summary: Den inledande kopieringsförloppet har fastnat. Ibland kan det lyckas nå 100 % slutförande för små volymer, medan stora volymer inte kunde slutföra den första kopian.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Scenario

Om det finns nätverksproblem eller låg bandbredd mellan käll- och målsystemen kanske den första kopieringsfasen aldrig slutförs.

Ett möjligt scenario är att den första kopian slutförs för små volymer, men på RCG:er (Replication Consistency Groups) som innehåller stora volymer – käll- och målvolymerna kan inte nå 100 % konsekvens och användningen av källjournalens kapacitet ökar när nya skrivningar tas emot av källvolymen.

Obs! Även om den stora källvolymen kan slutföra den första kopieringen, eller om en inledande offlinekopiering gjordes, om det finns nätverksproblem och skrivningar/omskrivningar på källvolymen, kanske vi inte uppfyller RPO och förlorar konsekvensen mellan källa och mål. 

Symptom

  1. Den första kopieringsförloppet har fastnat, till exempel visar "Inledande kopieringsförlopp" permanent 70 %: 

 # scli --query_all_replication_pairs
Local Id: bf50999700000000 Remote Id: bad02d5600000000 Copy Type: ONLINE_COPY Initial Copy State: ACTIVE Name: Rep
Local Volume Id: 2236ff5400000001 Remote Volume Id: 831e94c40000000d Local Volume Name: vol_lir1 Remote Volume Name: vol_lir1
Initial Copy progress: 70%
query_all_replication_pairs returned 1 Replication Pairs.

2 – Kontroll av SDR-spårningarna Följande fel identifieras: Nätverksproblem

 27/02 13:39:11.051442 (nil):netCon_ExchangeNewCon_CK:03589: ERROR: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148, Can't send NEW_CON message
27/02 13:39:11.051454 (nil):netCon_ConnectToPeer_CK:03519: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148 rollback connect
27/02 13:39:11.092475 (nil):netCon_IsKaNeeded:04338: ERROR: CON 0x7f42a80fb660 failed to send for 180 iterations. Marking as down
.
.
.
27/02 13:39:12.628337 (nil):mapVolIO_ReportIOErrorIfNeeded:00469: Vol ID 0x21c5f4c600000032. Last vol network error status NOT_CONN(4) Reason (NOT_CONN) RC (NOT_CONN) Retry count (0) chan (0) Total IO millis (1010)
27/02 13:39:12.637268 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d59b17d8. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)
27/02 13:39:12.637288 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d5a46030. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)

Inledande kopieringstillstånd, där små volymer är OK men större en gång inte kan slutföras.

 27/02 13:39:10.774502 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01871: (SDR_INITIAL_COPIER) Initial Copier - Got 2 SYSTEM_INITIAL_COPY CGs and 1 done VAEs
27/02 13:39:10.774520 0x7f42814f9db0:initialCopierCg_FillCgVaeDoneMsg:01963: (SDR_INITIAL_COPIER) Filled VAE Done MSG for Pair-Id de9ddcc900000001, GenNum: 2137, VaeId: 14
27/02 13:39:10.774633 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01921: (SDR_INITIAL_COPIER) Initial Copier - Total number of 1 VAEs will be reported as Done

3 – Om du kontrollerar SDR-anslutningen kan du se att vissa eller alla SDR till SDR-anslutningar är frånkopplade.

 scli --query_disconnection --print_all
peer_system ID: ff74bce300000000 Name: DR_PFlex_GW
SDR-SDR connectivity status: Multiple disconnections
SDR ID: 2d01669c00000000 Name: Sdr-172.24.194.137 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669d00000001 Name: Sdr-172.24.194.138 is disconnected from:
	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669e00000002 Name: Sdr-172.24.194.135 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669f00000003 Name: Sdr-172.24.194.136 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7

 

4 – Även om alla SDR-till-SDR-anslutningar fungerar bra kan ett möjligt tillstånd med samma symptom på inledande kopieringsfel uppstå om nätverkskapaciteten är dålig och det inte finns tillräckligt med bandbredd för att slutföra den första kopieringen.

Om du vill testa bandbredden mellan de två platserna kan du använda olika verktyg, till exempel "iperf":

Alla bandbreddstester kan påverka nätverket mellan platserna – om det finns WAN-användning för Site2Site-replikering ska kunden veta att det här testet ska utföras under korta kontorstider och med tanke på att nätverket som testet utförs för inte kommer att kunna användas under testets varaktighet. 

Validera att du kör testet tillräckligt länge för att få korrekta avläsningar – som att överföra stora volymer – observera också att det här testet stressar kundernas nätverk.

 Plats1

 [root@112AX-7 ~]# iperf3 -s
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------
Accepted connection from 172.24.1.174, port 54882
[  5] local 172.24.1.173 port 5201 connected to 172.24.1.174 port 54886
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-1.00   sec  2.76 GBytes  23.7 Gbits/sec                  
[  5]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec                  
[  5]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   5.00-5.04   sec   114 MBytes  24.7 Gbits/sec                  
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-5.04   sec  0.00 Bytes  0.00 bits/sec                  sender
[  5]   0.00-5.04   sec  14.4 GBytes  24.5 Gbits/sec                  receiver
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------

Plats2

 [root@112AX-8 ~]# iperf3 -c 172.24.1.173 -i 1 -t 5
Connecting to host 172.24.1.173, port 5201
[  4] local 172.24.1.174 port 54886 connected to 172.24.1.173 port 5201
[ ID] Interval           Transfer     Bandwidth       Retr  Cwnd
[  4]   0.00-1.00   sec  2.87 GBytes  24.7 Gbits/sec   12    734 KBytes       
[  4]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec    0    786 KBytes       
[  4]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec    0    804 KBytes       
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth       Retr
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec   12             sender
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec                  receiveriperf Done.

 

Påverkan

Replikeringen har inte upprättats – plats1 är inte konsekvent med plats2, om det finns replikering från en produktions- till DR-plats kan DR-platsen inte ta över om det finns ett redundansscenario.

Cause

Validera att SDR-processen har startats och är stabil på båda platserna. Om den gör det är den allmänna grundorsaken troligen relaterad till nätverksproblem mellan plats1 och plats2, och därför ansvarar PowerFlex inte för det inledande kopieringsproblemet. Med det sagt kommer den första kopian inte att fungera om inte nätverksproblemen behandlas.

Problemet kan vara något av följande:

  1. Felaktig konfiguration av SDR-IP-adresser
  2. Ingen rutt mellan SDR på plats1 och SDR på plats2
  3. SDR IP-roller är felkonfigurerade
  4. Kontrollera att brandväggen verifierar att port 11088 inte är blockerad
  5. Fel/ojusterad MTU-konfiguration mellan platserna
  6. Eventuella andra nätverksproblem

Resolution

Alternativ lösning

  1. Om du vill validera anslutningen mellan SDR:er kör du scli --query_disconnection --print_all - Kontrollera att det inte finns några frånkopplade SDR:er.
  2. Om alla är anslutna, men den första kopian fortfarande misslyckas, utför du ett bandbreddstest mellan plats1 och plats2 enligt beskrivningen ovan i iperf-exemplet

Om det inte finns några nätverksproblem och SDR-till-SDR-anslutningen fungerar bra utför du ett bandbreddstest. Om testet lyckas och den första kopian ändå inte slutförs eskalerar du problemet till PowerFlex L3.

Obs! Om nätverket fungerar bra men källvolymen är stor och den första kopieringen inte slutförs, kontrollera användarhandboken för ett alternativ för "initial offlinekopiering".  

Versioner som påverkas

Alla PowerFlex-versioner som kör replikering

Åtgärdat i version

Inte ett PowerFlex-relaterat problem

Affected Products

PowerFlex rack, ScaleIO
Article Properties
Article Number: 000204785
Article Type: Solution
Last Modified: 21 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.