Replikace PowerFlex – selhání počáteční kopie
Summary: Počáteční průběh kopírování se zasekne. Někdy se může podařit dosáhnout 100% dokončení pro malé svazky, zatímco u velkých svazků se nepodařilo dokončit počáteční kopii.
Symptoms
Scénář
Pokud dojde k problémům se sítí nebo nízké šířce pásma mezi zdrojovým a cílovým systémem, počáteční fáze kopírování se nemusí nikdy dokončit.
Možným scénářem je, že počáteční kopie bude dokončena pro malé svazky, ale u skupin konzistence replikace (RCG), které obsahují velké svazky, zdrojové a cílové svazky nemohou dosáhnout 100% konzistence a využití kapacity zdrojového deníku se zvyšuje s tím, jak zdrojový svazek přijímá nové zápisy.
Poznámka: I v případě, že velký zdrojový svazek může dokončit počáteční kopii nebo pokud byla provedena offline počáteční kopie, pokud dojde k problémům se sítí a zápisy nebo přepisy na zdrojovém svazku, nemusí dojít ke splnění cíle bodu obnovení a ztrátě konzistence mezi zdrojem a cílem.
Příznaky
-
Počáteční průběh kopírování se zasekne, například "Průběh počátečního kopírování" bude trvale zobrazovat 70 %:
# scli --query_all_replication_pairs Local Id: bf50999700000000 Remote Id: bad02d5600000000 Copy Type: ONLINE_COPY Initial Copy State: ACTIVE Name: Rep Local Volume Id: 2236ff5400000001 Remote Volume Id: 831e94c40000000d Local Volume Name: vol_lir1 Remote Volume Name: vol_lir1 Initial Copy progress: 70% query_all_replication_pairs returned 1 Replication Pairs.
2 – Kontrola trasování SDR Jsou identifikovány další chyby: Potíže se sítí
27/02 13:39:11.051442 (nil):netCon_ExchangeNewCon_CK:03589: ERROR: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148, Can't send NEW_CON message 27/02 13:39:11.051454 (nil):netCon_ConnectToPeer_CK:03519: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148 rollback connect 27/02 13:39:11.092475 (nil):netCon_IsKaNeeded:04338: ERROR: CON 0x7f42a80fb660 failed to send for 180 iterations. Marking as down . . . 27/02 13:39:12.628337 (nil):mapVolIO_ReportIOErrorIfNeeded:00469: Vol ID 0x21c5f4c600000032. Last vol network error status NOT_CONN(4) Reason (NOT_CONN) RC (NOT_CONN) Retry count (0) chan (0) Total IO millis (1010) 27/02 13:39:12.637268 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d59b17d8. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4) 27/02 13:39:12.637288 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d5a46030. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)
Počáteční stav kopírování, kdy malé svazky jsou v pořádku, ale větší svazky nelze dokončit.
27/02 13:39:10.774502 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01871: (SDR_INITIAL_COPIER) Initial Copier - Got 2 SYSTEM_INITIAL_COPY CGs and 1 done VAEs 27/02 13:39:10.774520 0x7f42814f9db0:initialCopierCg_FillCgVaeDoneMsg:01963: (SDR_INITIAL_COPIER) Filled VAE Done MSG for Pair-Id de9ddcc900000001, GenNum: 2137, VaeId: 14 27/02 13:39:10.774633 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01921: (SDR_INITIAL_COPIER) Initial Copier - Total number of 1 VAEs will be reported as Done
3 – Při kontrole připojení SDR se mohou některá nebo všechna připojení SDR k SDR zobrazit jako odpojená.
scli --query_disconnection --print_all peer_system ID: ff74bce300000000 Name: DR_PFlex_GW SDR-SDR connectivity status: Multiple disconnections SDR ID: 2d01669c00000000 Name: Sdr-172.24.194.137 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669d00000001 Name: Sdr-172.24.194.138 is disconnected from: SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669e00000002 Name: Sdr-172.24.194.135 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669f00000003 Name: Sdr-172.24.194.136 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
4 – I když je veškerá konektivita SDR na SDR v pořádku, může dojít k možnému stavu se stejnými příznaky selhání počátečního kopírování, pokud je kapacita sítě nízká a není dostatečná šířka pásma pro úspěšné dokončení počáteční kopie.
Chcete-li otestovat šířku pásma mezi těmito dvěma weby, můžete použít různé nástroje - například "iperf":
Jakékoli testování šířky pásma může mít vliv na síť mezi lokalitami – pokud se pro replikaci Site2Site používá síť WAN, informujte zákazníka, že tento test by měl být proveden mimo pracovní dobu a vzhledem k tomu, že síť, pro kterou se test provádí, nebude po dobu trvání testu použitelná.
Ověřte, zda test provádíte dostatečně dlouho, abyste získali správné hodnoty – například přenos velkých objemů – a mějte také na paměti, že tento test zatěžuje síť zákazníků.
Lokalita 1
[root@112AX-7 ~]# iperf3 -s ----------------------------------------------------------- Server listening on 5201 ----------------------------------------------------------- Accepted connection from 172.24.1.174, port 54882 [ 5] local 172.24.1.173 port 5201 connected to 172.24.1.174 port 54886 [ ID] Interval Transfer Bandwidth [ 5] 0.00-1.00 sec 2.76 GBytes 23.7 Gbits/sec [ 5] 1.00-2.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 2.00-3.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 3.00-4.00 sec 2.87 GBytes 24.7 Gbits/sec [ 5] 4.00-5.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 5.00-5.04 sec 114 MBytes 24.7 Gbits/sec - - - - - - - - - - - - - - - - - - - - - - - - - [ ID] Interval Transfer Bandwidth [ 5] 0.00-5.04 sec 0.00 Bytes 0.00 bits/sec sender [ 5] 0.00-5.04 sec 14.4 GBytes 24.5 Gbits/sec receiver ----------------------------------------------------------- Server listening on 5201 -----------------------------------------------------------
Lokalita 2
[root@112AX-8 ~]# iperf3 -c 172.24.1.173 -i 1 -t 5 Connecting to host 172.24.1.173, port 5201 [ 4] local 172.24.1.174 port 54886 connected to 172.24.1.173 port 5201 [ ID] Interval Transfer Bandwidth Retr Cwnd [ 4] 0.00-1.00 sec 2.87 GBytes 24.7 Gbits/sec 12 734 KBytes [ 4] 1.00-2.00 sec 2.88 GBytes 24.7 Gbits/sec 0 778 KBytes [ 4] 2.00-3.00 sec 2.88 GBytes 24.7 Gbits/sec 0 778 KBytes [ 4] 3.00-4.00 sec 2.87 GBytes 24.7 Gbits/sec 0 786 KBytes [ 4] 4.00-5.00 sec 2.88 GBytes 24.7 Gbits/sec 0 804 KBytes - - - - - - - - - - - - - - - - - - - - - - - - - [ ID] Interval Transfer Bandwidth Retr [ 4] 0.00-5.00 sec 14.4 GBytes 24.7 Gbits/sec 12 sender [ 4] 0.00-5.00 sec 14.4 GBytes 24.7 Gbits/sec receiveriperf Done.
Důsledky
Replikace není navázána – lokalita 1 nebude konzistentní s lokalitou 2, pokud dojde k replikaci z produkčního prostředí do lokality zotavení po havárii, lokalita zotavení po havárii nebude moci přebírat, pokud dojde ke scénáři převzetí služeb při selhání.
Cause
Ověřte, zda je proces SDR spuštěný a stabilní v obou lokalitách – pokud ano, pak hlavní příčina s největší pravděpodobností souvisí se síťovými problémy mezi lokalitami 1 a 2, proto systém PowerFlex nenese odpovědnost za problém s počáteční kopií. Jak již bylo řečeno, počáteční kopie nebude fungovat, pokud nebudou ošetřeny problémy se sítí.
Problém může být jeden z následujících:
- Špatná konfigurace IP adres SDR
- Žádná trasa mezi SDR v lokalitě 1 a SDR v lokalitě 2
- Role IP adres SDR jsou nesprávně nakonfigurované.
- Zkontrolujte, zda brána firewall ověřuje, zda port 11088 není blokovaný.
- Špatná/nesladěná konfigurace jednotky MTU mezi pracovišti
- Jakýkoli jiný problém se sítí
Resolution
Zástupné řešení
- Pokud chcete ověřit připojení mezi SDR, spusťte příkaz
scli --query_disconnection --print_all- Ověřte, že neexistují žádná odpojená SDR. - Pokud jsou všichni připojeni, ale počáteční kopie stále selže, proveďte test šířky pásma mezi lokalitami 1 a lokalitami 2, jak je popsáno výše v příkladu nástroje iperf.
Pokud nejsou nalezeny žádné problémy se sítí a připojení SDR na SDR je v pořádku, proveďte test šířky pásma. Pokud test proběhne úspěšně, ale počáteční kopírování se nedokončí, eskalujte problém na oddělení PowerFlex L3.
Poznámka: Pokud je síť v pořádku, ale zdrojový svazek je velký a počáteční kopie se nedokončí, vyhledejte v uživatelské příručce možnost "offline initial copy".
Dotčené verze
Všechny verze PowerFlex s replikací
Opraveno ve verzi
Nejedná se o problém související se zařízením PowerFlex.