PowerFlex-replikering – fel vid första kopian
Summary: Den inledande kopieringsförloppet har fastnat. Ibland kan det lyckas nå 100 % slutförande för små volymer, medan stora volymer inte kunde slutföra den första kopian.
Symptoms
Scenario
Om det finns nätverksproblem eller låg bandbredd mellan käll- och målsystemen kanske den första kopieringsfasen aldrig slutförs.
Ett möjligt scenario är att den första kopian slutförs för små volymer, men på RCG:er (Replication Consistency Groups) som innehåller stora volymer – käll- och målvolymerna kan inte nå 100 % konsekvens och användningen av källjournalens kapacitet ökar när nya skrivningar tas emot av källvolymen.
Obs! Även om den stora källvolymen kan slutföra den första kopieringen, eller om en inledande offlinekopiering gjordes, om det finns nätverksproblem och skrivningar/omskrivningar på källvolymen, kanske vi inte uppfyller RPO och förlorar konsekvensen mellan källa och mål.
Symptom
-
Den första kopieringsförloppet har fastnat, till exempel visar "Inledande kopieringsförlopp" permanent 70 %:
# scli --query_all_replication_pairs Local Id: bf50999700000000 Remote Id: bad02d5600000000 Copy Type: ONLINE_COPY Initial Copy State: ACTIVE Name: Rep Local Volume Id: 2236ff5400000001 Remote Volume Id: 831e94c40000000d Local Volume Name: vol_lir1 Remote Volume Name: vol_lir1 Initial Copy progress: 70% query_all_replication_pairs returned 1 Replication Pairs.
2 – Kontroll av SDR-spårningarna Följande fel identifieras: Nätverksproblem
27/02 13:39:11.051442 (nil):netCon_ExchangeNewCon_CK:03589: ERROR: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148, Can't send NEW_CON message 27/02 13:39:11.051454 (nil):netCon_ConnectToPeer_CK:03519: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148 rollback connect 27/02 13:39:11.092475 (nil):netCon_IsKaNeeded:04338: ERROR: CON 0x7f42a80fb660 failed to send for 180 iterations. Marking as down . . . 27/02 13:39:12.628337 (nil):mapVolIO_ReportIOErrorIfNeeded:00469: Vol ID 0x21c5f4c600000032. Last vol network error status NOT_CONN(4) Reason (NOT_CONN) RC (NOT_CONN) Retry count (0) chan (0) Total IO millis (1010) 27/02 13:39:12.637268 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d59b17d8. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4) 27/02 13:39:12.637288 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d5a46030. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)
Inledande kopieringstillstånd, där små volymer är OK men större en gång inte kan slutföras.
27/02 13:39:10.774502 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01871: (SDR_INITIAL_COPIER) Initial Copier - Got 2 SYSTEM_INITIAL_COPY CGs and 1 done VAEs 27/02 13:39:10.774520 0x7f42814f9db0:initialCopierCg_FillCgVaeDoneMsg:01963: (SDR_INITIAL_COPIER) Filled VAE Done MSG for Pair-Id de9ddcc900000001, GenNum: 2137, VaeId: 14 27/02 13:39:10.774633 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01921: (SDR_INITIAL_COPIER) Initial Copier - Total number of 1 VAEs will be reported as Done
3 – Om du kontrollerar SDR-anslutningen kan du se att vissa eller alla SDR till SDR-anslutningar är frånkopplade.
scli --query_disconnection --print_all peer_system ID: ff74bce300000000 Name: DR_PFlex_GW SDR-SDR connectivity status: Multiple disconnections SDR ID: 2d01669c00000000 Name: Sdr-172.24.194.137 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669d00000001 Name: Sdr-172.24.194.138 is disconnected from: SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669e00000002 Name: Sdr-172.24.194.135 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669f00000003 Name: Sdr-172.24.194.136 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
4 – Även om alla SDR-till-SDR-anslutningar fungerar bra kan ett möjligt tillstånd med samma symptom på inledande kopieringsfel uppstå om nätverkskapaciteten är dålig och det inte finns tillräckligt med bandbredd för att slutföra den första kopieringen.
Om du vill testa bandbredden mellan de två platserna kan du använda olika verktyg, till exempel "iperf":
Alla bandbreddstester kan påverka nätverket mellan platserna – om det finns WAN-användning för Site2Site-replikering ska kunden veta att det här testet ska utföras under korta kontorstider och med tanke på att nätverket som testet utförs för inte kommer att kunna användas under testets varaktighet.
Validera att du kör testet tillräckligt länge för att få korrekta avläsningar – som att överföra stora volymer – observera också att det här testet stressar kundernas nätverk.
Plats1
[root@112AX-7 ~]# iperf3 -s ----------------------------------------------------------- Server listening on 5201 ----------------------------------------------------------- Accepted connection from 172.24.1.174, port 54882 [ 5] local 172.24.1.173 port 5201 connected to 172.24.1.174 port 54886 [ ID] Interval Transfer Bandwidth [ 5] 0.00-1.00 sec 2.76 GBytes 23.7 Gbits/sec [ 5] 1.00-2.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 2.00-3.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 3.00-4.00 sec 2.87 GBytes 24.7 Gbits/sec [ 5] 4.00-5.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 5.00-5.04 sec 114 MBytes 24.7 Gbits/sec - - - - - - - - - - - - - - - - - - - - - - - - - [ ID] Interval Transfer Bandwidth [ 5] 0.00-5.04 sec 0.00 Bytes 0.00 bits/sec sender [ 5] 0.00-5.04 sec 14.4 GBytes 24.5 Gbits/sec receiver ----------------------------------------------------------- Server listening on 5201 -----------------------------------------------------------
Plats2
[root@112AX-8 ~]# iperf3 -c 172.24.1.173 -i 1 -t 5 Connecting to host 172.24.1.173, port 5201 [ 4] local 172.24.1.174 port 54886 connected to 172.24.1.173 port 5201 [ ID] Interval Transfer Bandwidth Retr Cwnd [ 4] 0.00-1.00 sec 2.87 GBytes 24.7 Gbits/sec 12 734 KBytes [ 4] 1.00-2.00 sec 2.88 GBytes 24.7 Gbits/sec 0 778 KBytes [ 4] 2.00-3.00 sec 2.88 GBytes 24.7 Gbits/sec 0 778 KBytes [ 4] 3.00-4.00 sec 2.87 GBytes 24.7 Gbits/sec 0 786 KBytes [ 4] 4.00-5.00 sec 2.88 GBytes 24.7 Gbits/sec 0 804 KBytes - - - - - - - - - - - - - - - - - - - - - - - - - [ ID] Interval Transfer Bandwidth Retr [ 4] 0.00-5.00 sec 14.4 GBytes 24.7 Gbits/sec 12 sender [ 4] 0.00-5.00 sec 14.4 GBytes 24.7 Gbits/sec receiveriperf Done.
Påverkan
Replikeringen har inte upprättats – plats1 är inte konsekvent med plats2, om det finns replikering från en produktions- till DR-plats kan DR-platsen inte ta över om det finns ett redundansscenario.
Cause
Validera att SDR-processen har startats och är stabil på båda platserna. Om den gör det är den allmänna grundorsaken troligen relaterad till nätverksproblem mellan plats1 och plats2, och därför ansvarar PowerFlex inte för det inledande kopieringsproblemet. Med det sagt kommer den första kopian inte att fungera om inte nätverksproblemen behandlas.
Problemet kan vara något av följande:
- Felaktig konfiguration av SDR-IP-adresser
- Ingen rutt mellan SDR på plats1 och SDR på plats2
- SDR IP-roller är felkonfigurerade
- Kontrollera att brandväggen verifierar att port 11088 inte är blockerad
- Fel/ojusterad MTU-konfiguration mellan platserna
- Eventuella andra nätverksproblem
Resolution
Alternativ lösning
- Om du vill validera anslutningen mellan SDR:er kör du
scli --query_disconnection --print_all- Kontrollera att det inte finns några frånkopplade SDR:er. - Om alla är anslutna, men den första kopian fortfarande misslyckas, utför du ett bandbreddstest mellan plats1 och plats2 enligt beskrivningen ovan i iperf-exemplet.
Om det inte finns några nätverksproblem och SDR-till-SDR-anslutningen fungerar bra utför du ett bandbreddstest. Om testet lyckas och den första kopian ändå inte slutförs eskalerar du problemet till PowerFlex L3.
Obs! Om nätverket fungerar bra men källvolymen är stor och den första kopieringen inte slutförs, kontrollera användarhandboken för ett alternativ för "initial offlinekopiering".
Versioner som påverkas
Alla PowerFlex-versioner som kör replikering
Åtgärdat i version
Inte ett PowerFlex-relaterat problem