PowerFlex-replikering – første kopieringsfejl
Summary: Den første kopiering går i stå. Nogle gange kan det lykkes at nå 100% færdiggørelse for små mængder, mens store mængder ikke kunne fuldføre den oprindelige kopi.
Symptoms
Scenarie
Hvis der er netværksproblemer eller lav båndbredde mellem kilde- og destinationssystemerne, afsluttes den indledende kopieringsfase muligvis aldrig.
Et muligt scenarie er, at den første kopi udfyldes for små diskenheder, dog på RCG'er (Replication Consistency Groups), der indeholder store diskenheder - kilde- og måldiskenhederne kan ikke nå 100 % konsistens, og udnyttelsen af kildekladdekapaciteten øges, efterhånden som nye skrivninger modtages af kildediskenheden.
Bemærk: Selvom den store kildediskenhed kan afslutte den første kopi, eller hvis der blev lavet en offline første kopi, hvis der er netværksproblemer og skriver/omskriver på kildediskenheden, opfylder vi muligvis ikke RPO og mister konsistensen mellem kilde og mål.
Symptomer
-
Den første kopieringsfremgang sidder fast, f.eks. vises "Første kopieringsstatus" permanent 70 %:
# scli --query_all_replication_pairs Local Id: bf50999700000000 Remote Id: bad02d5600000000 Copy Type: ONLINE_COPY Initial Copy State: ACTIVE Name: Rep Local Volume Id: 2236ff5400000001 Remote Volume Id: 831e94c40000000d Local Volume Name: vol_lir1 Remote Volume Name: vol_lir1 Initial Copy progress: 70% query_all_replication_pairs returned 1 Replication Pairs.
2 – Kontrol af SDR-sporingerne De næste fejl identificeres: Netværksproblemer
27/02 13:39:11.051442 (nil):netCon_ExchangeNewCon_CK:03589: ERROR: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148, Can't send NEW_CON message 27/02 13:39:11.051454 (nil):netCon_ConnectToPeer_CK:03519: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148 rollback connect 27/02 13:39:11.092475 (nil):netCon_IsKaNeeded:04338: ERROR: CON 0x7f42a80fb660 failed to send for 180 iterations. Marking as down . . . 27/02 13:39:12.628337 (nil):mapVolIO_ReportIOErrorIfNeeded:00469: Vol ID 0x21c5f4c600000032. Last vol network error status NOT_CONN(4) Reason (NOT_CONN) RC (NOT_CONN) Retry count (0) chan (0) Total IO millis (1010) 27/02 13:39:12.637268 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d59b17d8. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4) 27/02 13:39:12.637288 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d5a46030. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)
Første kopieringstilstand, hvor små mængder er OK, men større én gang ikke kan afsluttes.
27/02 13:39:10.774502 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01871: (SDR_INITIAL_COPIER) Initial Copier - Got 2 SYSTEM_INITIAL_COPY CGs and 1 done VAEs 27/02 13:39:10.774520 0x7f42814f9db0:initialCopierCg_FillCgVaeDoneMsg:01963: (SDR_INITIAL_COPIER) Filled VAE Done MSG for Pair-Id de9ddcc900000001, GenNum: 2137, VaeId: 14 27/02 13:39:10.774633 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01921: (SDR_INITIAL_COPIER) Initial Copier - Total number of 1 VAEs will be reported as Done
3- Når du kontrollerer SDR-forbindelsen, kan du muligvis se nogle eller alle SDR til SDR-forbindelser som afbrudt.
scli --query_disconnection --print_all peer_system ID: ff74bce300000000 Name: DR_PFlex_GW SDR-SDR connectivity status: Multiple disconnections SDR ID: 2d01669c00000000 Name: Sdr-172.24.194.137 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669d00000001 Name: Sdr-172.24.194.138 is disconnected from: SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669e00000002 Name: Sdr-172.24.194.135 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669f00000003 Name: Sdr-172.24.194.136 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
4- Selvom al SDR til SDR-forbindelse er i orden, kan der opstå en mulig tilstand med de samme symptomer på indledende kopifejl, hvis netværkskapaciteten er dårlig, og der ikke er nok båndbredde til at afslutte den oprindelige kopi med succes.
For at teste båndbredden mellem de to websteder kan du bruge forskellige værktøjer - for eksempel "iperf":
Enhver test af båndbredde kan påvirke netværket mellem webstederne - hvis der er WAN-brug til Site2Site-replikering, skal du fortælle kunden, at denne test skal udføres inden for lave åbningstider og overveje, at netværket, som testen udføres for, ikke vil være brugbart i testens varighed.
Godkend, at du kører testen længe nok til at have korrekte aflæsninger - som at overføre store mængder - bemærk også, at denne test understreger kundernes netværk.
Websted1
[root@112AX-7 ~]# iperf3 -s ----------------------------------------------------------- Server listening on 5201 ----------------------------------------------------------- Accepted connection from 172.24.1.174, port 54882 [ 5] local 172.24.1.173 port 5201 connected to 172.24.1.174 port 54886 [ ID] Interval Transfer Bandwidth [ 5] 0.00-1.00 sec 2.76 GBytes 23.7 Gbits/sec [ 5] 1.00-2.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 2.00-3.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 3.00-4.00 sec 2.87 GBytes 24.7 Gbits/sec [ 5] 4.00-5.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 5.00-5.04 sec 114 MBytes 24.7 Gbits/sec - - - - - - - - - - - - - - - - - - - - - - - - - [ ID] Interval Transfer Bandwidth [ 5] 0.00-5.04 sec 0.00 Bytes 0.00 bits/sec sender [ 5] 0.00-5.04 sec 14.4 GBytes 24.5 Gbits/sec receiver ----------------------------------------------------------- Server listening on 5201 -----------------------------------------------------------
Site2
[root@112AX-8 ~]# iperf3 -c 172.24.1.173 -i 1 -t 5 Connecting to host 172.24.1.173, port 5201 [ 4] local 172.24.1.174 port 54886 connected to 172.24.1.173 port 5201 [ ID] Interval Transfer Bandwidth Retr Cwnd [ 4] 0.00-1.00 sec 2.87 GBytes 24.7 Gbits/sec 12 734 KBytes [ 4] 1.00-2.00 sec 2.88 GBytes 24.7 Gbits/sec 0 778 KBytes [ 4] 2.00-3.00 sec 2.88 GBytes 24.7 Gbits/sec 0 778 KBytes [ 4] 3.00-4.00 sec 2.87 GBytes 24.7 Gbits/sec 0 786 KBytes [ 4] 4.00-5.00 sec 2.88 GBytes 24.7 Gbits/sec 0 804 KBytes - - - - - - - - - - - - - - - - - - - - - - - - - [ ID] Interval Transfer Bandwidth Retr [ 4] 0.00-5.00 sec 14.4 GBytes 24.7 Gbits/sec 12 sender [ 4] 0.00-5.00 sec 14.4 GBytes 24.7 Gbits/sec receiveriperf Done.
Påvirkning
Replikering er ikke etableret – site1 vil ikke være konsistent med site2, hvis der er replikering fra en produktions- til DR-lokation, kan DR-lokationen ikke overhale, hvis der er et failover-scenarie.
Cause
Bekræft, at SDR-processen er startet og stabil begge steder – hvis den gør, er den generelle årsag sandsynligvis relateret til netværksproblemer mellem site1 og site2, og derfor er PowerFlex ikke ansvarlig for det oprindelige kopiproblem. Når det er sagt, fungerer den oprindelige kopi ikke, medmindre netværksproblemerne behandles.
Problemet kan være et af følgende:
- Forkert konfiguration af SDR-IP'erne
- Ingen rute mellem SDR på site1 og SDR på site2
- SDR IP-roller er forkert konfigureret
- Kontroller, at firewallen validerer, at Port 11088 ikke er blokeret
- Forkert/ujusteret MTU-konfiguration mellem webstederne
- Ethvert andet netværksproblem
Resolution
Løsning
- For at validere forbindelsen mellem SDR er skal du køre
scli --query_disconnection --print_all- Bekræft, at der ikke er nogen frakoblede SDR'er. - Hvis alle er tilsluttet, men den første kopiering stadig mislykkes, skal du udføre en båndbreddetest mellem site1 og site2 som beskrevet ovenfor i iperf-eksemplet.
Hvis der ikke blev fundet nogen netværksproblemer, og SDR til SDR-forbindelsen er i orden, skal du udføre en båndbreddetest, og hvis testen vender tilbage med succes, og den første kopiering alligevel ikke kan fuldføres, eskaleres problemet til PowerFlex L3.
Bemærk: Hvis netværket er fint, men kildediskenheden er stor, og den første kopi ikke afsluttes, skal du kontrollere brugervejledningen for en "offline initial copy" mulighed.
Påvirkede versioner
Alle PowerFlex-versioner, der kører replikering
Fast i version
Ikke et PowerFlex-relateret problem