Replikacja PowerFlex — błąd kopiowania początkowego
Summary: Początkowy postęp kopiowania został zablokowany. Czasami może się udać osiągnięcie 100% ukończenia w przypadku małych woluminów, podczas gdy duże woluminy nie ukończyły początkowej kopii. ...
Symptoms
Scenariusz
W przypadku problemów z siecią lub niskiej przepustowości między systemem źródłowym i docelowym początkowy etap kopiowania może nigdy się nie zakończyć.
Możliwy scenariusz jest taki, że początkowa kopia zostanie wykonana dla woluminów o małym rozmiarze, jednak w grupach spójności replikacji (RCG) zawierających duże woluminy — wolumin źródłowy i docelowy nie są w stanie osiągnąć 100% spójności, a wykorzystanie pojemności dziennika źródłowego wzrasta w miarę odbierania nowych zapisów przez wolumin źródłowy.
Uwaga: Nawet jeśli duży wolumin źródłowy może ukończyć początkową kopię lub jeśli została wykonana początkowa kopia offline, jeśli występują problemy z siecią i zapisy/ponowne zapisy na woluminie źródłowym, możemy nie osiągnąć celu RPO i utracić spójność między źródłem i obiektem docelowym.
Objawy
-
Początkowy postęp kopiowania został zablokowany, na przykład "Początkowy postęp kopiowania" pokaże trwale 70%:
# scli --query_all_replication_pairs Local Id: bf50999700000000 Remote Id: bad02d5600000000 Copy Type: ONLINE_COPY Initial Copy State: ACTIVE Name: Rep Local Volume Id: 2236ff5400000001 Remote Volume Id: 831e94c40000000d Local Volume Name: vol_lir1 Remote Volume Name: vol_lir1 Initial Copy progress: 70% query_all_replication_pairs returned 1 Replication Pairs.
2. Sprawdzanie ścieżek SDR powoduje zidentyfikowanie kolejnych błędów: Problemy z siecią
27/02 13:39:11.051442 (nil):netCon_ExchangeNewCon_CK:03589: ERROR: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148, Can't send NEW_CON message 27/02 13:39:11.051454 (nil):netCon_ConnectToPeer_CK:03519: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148 rollback connect 27/02 13:39:11.092475 (nil):netCon_IsKaNeeded:04338: ERROR: CON 0x7f42a80fb660 failed to send for 180 iterations. Marking as down . . . 27/02 13:39:12.628337 (nil):mapVolIO_ReportIOErrorIfNeeded:00469: Vol ID 0x21c5f4c600000032. Last vol network error status NOT_CONN(4) Reason (NOT_CONN) RC (NOT_CONN) Retry count (0) chan (0) Total IO millis (1010) 27/02 13:39:12.637268 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d59b17d8. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4) 27/02 13:39:12.637288 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d5a46030. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)
Początkowy stan kopiowania, w którym małe woluminy są w porządku, ale większe raz nie mogą zakończyć procesu.
27/02 13:39:10.774502 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01871: (SDR_INITIAL_COPIER) Initial Copier - Got 2 SYSTEM_INITIAL_COPY CGs and 1 done VAEs 27/02 13:39:10.774520 0x7f42814f9db0:initialCopierCg_FillCgVaeDoneMsg:01963: (SDR_INITIAL_COPIER) Filled VAE Done MSG for Pair-Id de9ddcc900000001, GenNum: 2137, VaeId: 14 27/02 13:39:10.774633 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01921: (SDR_INITIAL_COPIER) Initial Copier - Total number of 1 VAEs will be reported as Done
3. Po sprawdzeniu łączności SDR może się okazać, że niektóre lub wszystkie połączenia między modułami SDR są rozłączone.
scli --query_disconnection --print_all peer_system ID: ff74bce300000000 Name: DR_PFlex_GW SDR-SDR connectivity status: Multiple disconnections SDR ID: 2d01669c00000000 Name: Sdr-172.24.194.137 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669d00000001 Name: Sdr-172.24.194.138 is disconnected from: SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669e00000002 Name: Sdr-172.24.194.135 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669f00000003 Name: Sdr-172.24.194.136 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
4- Nawet jeśli wszystkie połączenia między modułami SDR działają prawidłowo, może wystąpić sytuacja z tymi samymi objawami niepowodzenia pierwszej kopii, jeśli pojemność sieci jest niska i przepustowość niewystarczająca do pomyślnego ukończenia początkowej kopii.
Aby przetestować przepustowość między dwiema witrynami, możesz użyć różnych narzędzi - na przykład "iperf":
Wszelkie testy przepustowości mogą mieć wpływ na sieć między lokalizacjami — w przypadku korzystania z sieci WAN dla replikacji Site2Site należy poinformować klienta, że ten test powinien być przeprowadzany w niskich godzinach pracy i biorąc pod uwagę, że sieć, dla której przeprowadzany jest test, nie będzie nadawała się do użytku w czasie trwania testu.
Sprawdź, czy przeprowadzasz test wystarczająco długo, aby uzyskać prawidłowe odczyty - takie jak przesyłanie dużych wolumenów - pamiętaj również, że ten test obciąża sieć klientów.
Ośrodek 1
[root@112AX-7 ~]# iperf3 -s ----------------------------------------------------------- Server listening on 5201 ----------------------------------------------------------- Accepted connection from 172.24.1.174, port 54882 [ 5] local 172.24.1.173 port 5201 connected to 172.24.1.174 port 54886 [ ID] Interval Transfer Bandwidth [ 5] 0.00-1.00 sec 2.76 GBytes 23.7 Gbits/sec [ 5] 1.00-2.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 2.00-3.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 3.00-4.00 sec 2.87 GBytes 24.7 Gbits/sec [ 5] 4.00-5.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 5.00-5.04 sec 114 MBytes 24.7 Gbits/sec - - - - - - - - - - - - - - - - - - - - - - - - - [ ID] Interval Transfer Bandwidth [ 5] 0.00-5.04 sec 0.00 Bytes 0.00 bits/sec sender [ 5] 0.00-5.04 sec 14.4 GBytes 24.5 Gbits/sec receiver ----------------------------------------------------------- Server listening on 5201 -----------------------------------------------------------
Ośrodek 2
[root@112AX-8 ~]# iperf3 -c 172.24.1.173 -i 1 -t 5 Connecting to host 172.24.1.173, port 5201 [ 4] local 172.24.1.174 port 54886 connected to 172.24.1.173 port 5201 [ ID] Interval Transfer Bandwidth Retr Cwnd [ 4] 0.00-1.00 sec 2.87 GBytes 24.7 Gbits/sec 12 734 KBytes [ 4] 1.00-2.00 sec 2.88 GBytes 24.7 Gbits/sec 0 778 KBytes [ 4] 2.00-3.00 sec 2.88 GBytes 24.7 Gbits/sec 0 778 KBytes [ 4] 3.00-4.00 sec 2.87 GBytes 24.7 Gbits/sec 0 786 KBytes [ 4] 4.00-5.00 sec 2.88 GBytes 24.7 Gbits/sec 0 804 KBytes - - - - - - - - - - - - - - - - - - - - - - - - - [ ID] Interval Transfer Bandwidth Retr [ 4] 0.00-5.00 sec 14.4 GBytes 24.7 Gbits/sec 12 sender [ 4] 0.00-5.00 sec 14.4 GBytes 24.7 Gbits/sec receiveriperf Done.
Wpływ
Replikacja nie została ustanowiona — lokacja 1 nie będzie spójna z lokacją site2, jeśli istnieje replikacja z lokacji produkcyjnej do lokacji DR, lokacja DR nie może zostać przejęta, jeśli istnieje scenariusz przełączania awaryjnego.
Cause
Sprawdź, czy proces SDR jest uruchomiony i stabilny na obu lokalizacjach — jeśli tak, to najprawdopodobniej główna przyczyna jest związana z problemami z siecią między lokacjami 1 i 2, dlatego PowerFlex nie jest odpowiedzialny za początkowy problem z kopiowaniem. To powiedziawszy, początkowa kopia nie będzie działać, jeśli problemy z siecią nie zostaną rozwiązane.
Problem może być jeden z następujących elementów:
- Nieprawidłowa konfiguracja adresów IP modułu SDR
- Brak trasy między modułami SDR w lokalizacji1 a modułami SDR w lokalizacji2
- Role IP SDR są nieprawidłowo skonfigurowane
- Sprawdź, czy zapora sprawdza, czy port 11088 nie jest zablokowany
- Nieprawidłowa/niewyrównana konfiguracja MTU między lokalizacjami
- Wszelkie inne problemy z siecią
Resolution
Obejście problemu
- Aby sprawdzić poprawność łączności między modułami SDR, uruchom polecenie
scli --query_disconnection --print_all- sprawdź, czy nie ma odłączonych SDR-ów. - Jeśli wszystkie są połączone, ale początkowa kopia nadal kończy się niepowodzeniem, wykonaj test przepustowości między lokacjami site1 i site2, jak opisano powyżej w przykładzie iperf.
Jeśli nie znaleziono problemów z siecią, a łączność między modułami SDR działa prawidłowo, wykonaj test przepustowości. Jeśli test zakończy się pomyślnie, ale początkowa kopia zakończy się niepowodzeniem, eskaluj problem do PowerFlex L3.
Uwaga: Jeśli sieć działa prawidłowo, ale wolumin źródłowy jest duży i początkowa kopia nie kończy się, sprawdź, czy w podręczniku użytkownika znajduje się opcja "Kopia początkowa offline".
Wersje, których dotyczy problem
Wszystkie wersje PowerFlex z replikacją
Naprawiono w wersji
To nie jest problem związany z rozwiązaniem PowerFlex.