PowerFlex-replikering – feil ved første kopiering

Summary: Innledende kopieringsfremdrift sitter fast. Noen ganger kan det lykkes å nå 100% ferdigstillelse for små volumer, mens store volumer ikke klarte å fullføre den første kopien.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Scenario

Hvis det er nettverksproblemer eller lav båndbredde mellom kilden og målsystemene, kan det hende at den første kopieringsfasen aldri fullføres.

Et mulig scenario er at den første kopien fullføres for mindre volumer, men på replikeringskonsistensgrupper (RCG-er) som inneholder store volumer – kilde- og målvolumene kan ikke oppnå 100 % konsistens, og kapasitetsutnyttelsen for kildejournalen øker etter hvert som nye skriveoperasjoner mottas av kildevolumet.

Merk: Selv om det store kildevolumet kan fullføre den første kopien, eller hvis en frakoblet første kopi ble gjort, hvis det er nettverksproblemer og skriver/omskrivinger på kildevolumet, kan det hende at vi ikke oppfyller RPO og mister konsistensen mellom kilde og mål. 

Symptomer

  1. Den første kopieringsfremdriften står fast, for eksempel vil "Første kopieringsfremdrift" vise permanent 70 %: 

 # scli --query_all_replication_pairs
Local Id: bf50999700000000 Remote Id: bad02d5600000000 Copy Type: ONLINE_COPY Initial Copy State: ACTIVE Name: Rep
Local Volume Id: 2236ff5400000001 Remote Volume Id: 831e94c40000000d Local Volume Name: vol_lir1 Remote Volume Name: vol_lir1
Initial Copy progress: 70%
query_all_replication_pairs returned 1 Replication Pairs.

2 – Kontroll av SDR-spor Neste feil identifiseres: Nettverksproblemer

 27/02 13:39:11.051442 (nil):netCon_ExchangeNewCon_CK:03589: ERROR: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148, Can't send NEW_CON message
27/02 13:39:11.051454 (nil):netCon_ConnectToPeer_CK:03519: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148 rollback connect
27/02 13:39:11.092475 (nil):netCon_IsKaNeeded:04338: ERROR: CON 0x7f42a80fb660 failed to send for 180 iterations. Marking as down
.
.
.
27/02 13:39:12.628337 (nil):mapVolIO_ReportIOErrorIfNeeded:00469: Vol ID 0x21c5f4c600000032. Last vol network error status NOT_CONN(4) Reason (NOT_CONN) RC (NOT_CONN) Retry count (0) chan (0) Total IO millis (1010)
27/02 13:39:12.637268 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d59b17d8. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)
27/02 13:39:12.637288 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d5a46030. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)

Opprinnelig kopitilstand, der små volumer er OK, men større når de ikke kan fullføres.

 27/02 13:39:10.774502 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01871: (SDR_INITIAL_COPIER) Initial Copier - Got 2 SYSTEM_INITIAL_COPY CGs and 1 done VAEs
27/02 13:39:10.774520 0x7f42814f9db0:initialCopierCg_FillCgVaeDoneMsg:01963: (SDR_INITIAL_COPIER) Filled VAE Done MSG for Pair-Id de9ddcc900000001, GenNum: 2137, VaeId: 14
27/02 13:39:10.774633 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01921: (SDR_INITIAL_COPIER) Initial Copier - Total number of 1 VAEs will be reported as Done

3- Når du kontrollerer SDR-tilkobling, kan det hende du ser noen eller alle SDR til SDR-tilkoblinger som frakoblet.

 scli --query_disconnection --print_all
peer_system ID: ff74bce300000000 Name: DR_PFlex_GW
SDR-SDR connectivity status: Multiple disconnections
SDR ID: 2d01669c00000000 Name: Sdr-172.24.194.137 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669d00000001 Name: Sdr-172.24.194.138 is disconnected from:
	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669e00000002 Name: Sdr-172.24.194.135 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669f00000003 Name: Sdr-172.24.194.136 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7

 

4 - Selv om alle SDR til SDR-tilkobling er fine, en mulig tilstand med de samme symptomene på første kopiering feil kan oppstå hvis nettverkskapasiteten er dårlig og det ikke er nok båndbredde til å fullføre den første kopien.

For å teste båndbredden mellom de to nettstedene, kan du bruke forskjellige verktøy - for eksempel "iperf":

Enhver testing av båndbredde kan påvirke nettverket mellom sidene - hvis det er WAN-bruk for Site2Site-replikering, la kunden få vite at denne testen bør utføres i lave åpningstider og med tanke på at nettverket som testen er utført for ikke vil kunne brukes så lenge testen varer. 

Bekreft at du kjører testen lenge nok til å ha riktige avlesninger - som å overføre store volumer - vær også oppmerksom på at denne testen stresser kundenes nettverk.

 Nettsted1

 [root@112AX-7 ~]# iperf3 -s
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------
Accepted connection from 172.24.1.174, port 54882
[  5] local 172.24.1.173 port 5201 connected to 172.24.1.174 port 54886
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-1.00   sec  2.76 GBytes  23.7 Gbits/sec                  
[  5]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec                  
[  5]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   5.00-5.04   sec   114 MBytes  24.7 Gbits/sec                  
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-5.04   sec  0.00 Bytes  0.00 bits/sec                  sender
[  5]   0.00-5.04   sec  14.4 GBytes  24.5 Gbits/sec                  receiver
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------

Nettsted 2

 [root@112AX-8 ~]# iperf3 -c 172.24.1.173 -i 1 -t 5
Connecting to host 172.24.1.173, port 5201
[  4] local 172.24.1.174 port 54886 connected to 172.24.1.173 port 5201
[ ID] Interval           Transfer     Bandwidth       Retr  Cwnd
[  4]   0.00-1.00   sec  2.87 GBytes  24.7 Gbits/sec   12    734 KBytes       
[  4]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec    0    786 KBytes       
[  4]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec    0    804 KBytes       
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth       Retr
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec   12             sender
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec                  receiveriperf Done.

 

Innvirkning

Replikering er ikke etablert – site1 vil ikke være konsekvent med site2. Hvis det er replikering fra et produksjons- til DR-område, kan ikke DR-området kjøre forbi hvis det finnes et failover-scenario.

Cause

Kontroller at SDR-prosessen er startet og stabil på begge områdene – hvis den gjør det, er den generelle årsaken sannsynligvis knyttet til nettverksproblemer mellom site1 og site2, og PowerFlex er derfor ikke ansvarlig for det første kopieringsproblemet. Når det er sagt, vil den første kopien ikke fungere med mindre nettverksproblemene blir behandlet.

Problemet kan være ett av følgende:

  1. Feil konfigurasjon av SDR IP-er
  2. Ingen rute mellom SDR-er på område 1 og SDR på område2
  3. SDR IP-roller er feilkonfigurert
  4. Kontroller at brannmuren validerer at port 11088 ikke er blokkert
  5. Feil/ikke-justert MTU-konfigurasjon mellom nettstedene
  6. Alle andre nettverksproblemer

Resolution

Omgåelse av problemet

  1. Hvis du vil validere tilkoblingen mellom SDR, kjører du scli --query_disconnection --print_all - Bekrefte at det ikke er noen frakoblede SDR-er.
  2. Hvis alle er koblet sammen, men den første kopien fortsatt mislykkes, vennligst utfør en båndbreddetest mellom site1 og site2 som beskrevet ovenfor i iperf-eksemplet

Hvis det ikke oppdages noen nettverksproblemer og SDR til SDR-tilkoblingen er i orden, utfører du en båndbreddetest, og hvis testen returnerer som vellykket, og den første kopien likevel ikke fullføres, eskalerer du problemet til PowerFlex L3.

Merk: Hvis nettverket er bra, men kildevolumet er stort og den første kopien ikke fullføres, må du se i brukerhåndboken for et alternativ "frakoblet første kopi".  

Berørte versjoner

Alle PowerFlex-versjoner som kjører replikering

Løst i versjon

Ikke et PowerFlex-relatert problem

Affected Products

PowerFlex rack, ScaleIO
Article Properties
Article Number: 000204785
Article Type: Solution
Last Modified: 21 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.