Replikacja PowerFlex — błąd kopiowania początkowego

Summary: Początkowy postęp kopiowania został zablokowany. Czasami może się udać osiągnięcie 100% ukończenia w przypadku małych woluminów, podczas gdy duże woluminy nie ukończyły początkowej kopii. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Scenariusz

W przypadku problemów z siecią lub niskiej przepustowości między systemem źródłowym i docelowym początkowy etap kopiowania może nigdy się nie zakończyć.

Możliwy scenariusz jest taki, że początkowa kopia zostanie wykonana dla woluminów o małym rozmiarze, jednak w grupach spójności replikacji (RCG) zawierających duże woluminy — wolumin źródłowy i docelowy nie są w stanie osiągnąć 100% spójności, a wykorzystanie pojemności dziennika źródłowego wzrasta w miarę odbierania nowych zapisów przez wolumin źródłowy.

Uwaga: Nawet jeśli duży wolumin źródłowy może ukończyć początkową kopię lub jeśli została wykonana początkowa kopia offline, jeśli występują problemy z siecią i zapisy/ponowne zapisy na woluminie źródłowym, możemy nie osiągnąć celu RPO i utracić spójność między źródłem i obiektem docelowym. 

Objawy

  1. Początkowy postęp kopiowania został zablokowany, na przykład "Początkowy postęp kopiowania" pokaże trwale 70%: 

 # scli --query_all_replication_pairs
Local Id: bf50999700000000 Remote Id: bad02d5600000000 Copy Type: ONLINE_COPY Initial Copy State: ACTIVE Name: Rep
Local Volume Id: 2236ff5400000001 Remote Volume Id: 831e94c40000000d Local Volume Name: vol_lir1 Remote Volume Name: vol_lir1
Initial Copy progress: 70%
query_all_replication_pairs returned 1 Replication Pairs.

2. Sprawdzanie ścieżek SDR powoduje zidentyfikowanie kolejnych błędów: Problemy z siecią

 27/02 13:39:11.051442 (nil):netCon_ExchangeNewCon_CK:03589: ERROR: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148, Can't send NEW_CON message
27/02 13:39:11.051454 (nil):netCon_ConnectToPeer_CK:03519: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148 rollback connect
27/02 13:39:11.092475 (nil):netCon_IsKaNeeded:04338: ERROR: CON 0x7f42a80fb660 failed to send for 180 iterations. Marking as down
.
.
.
27/02 13:39:12.628337 (nil):mapVolIO_ReportIOErrorIfNeeded:00469: Vol ID 0x21c5f4c600000032. Last vol network error status NOT_CONN(4) Reason (NOT_CONN) RC (NOT_CONN) Retry count (0) chan (0) Total IO millis (1010)
27/02 13:39:12.637268 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d59b17d8. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)
27/02 13:39:12.637288 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d5a46030. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)

Początkowy stan kopiowania, w którym małe woluminy są w porządku, ale większe raz nie mogą zakończyć procesu.

 27/02 13:39:10.774502 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01871: (SDR_INITIAL_COPIER) Initial Copier - Got 2 SYSTEM_INITIAL_COPY CGs and 1 done VAEs
27/02 13:39:10.774520 0x7f42814f9db0:initialCopierCg_FillCgVaeDoneMsg:01963: (SDR_INITIAL_COPIER) Filled VAE Done MSG for Pair-Id de9ddcc900000001, GenNum: 2137, VaeId: 14
27/02 13:39:10.774633 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01921: (SDR_INITIAL_COPIER) Initial Copier - Total number of 1 VAEs will be reported as Done

3. Po sprawdzeniu łączności SDR może się okazać, że niektóre lub wszystkie połączenia między modułami SDR są rozłączone.

 scli --query_disconnection --print_all
peer_system ID: ff74bce300000000 Name: DR_PFlex_GW
SDR-SDR connectivity status: Multiple disconnections
SDR ID: 2d01669c00000000 Name: Sdr-172.24.194.137 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669d00000001 Name: Sdr-172.24.194.138 is disconnected from:
	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669e00000002 Name: Sdr-172.24.194.135 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669f00000003 Name: Sdr-172.24.194.136 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7

 

4- Nawet jeśli wszystkie połączenia między modułami SDR działają prawidłowo, może wystąpić sytuacja z tymi samymi objawami niepowodzenia pierwszej kopii, jeśli pojemność sieci jest niska i przepustowość niewystarczająca do pomyślnego ukończenia początkowej kopii.

Aby przetestować przepustowość między dwiema witrynami, możesz użyć różnych narzędzi - na przykład "iperf":

Wszelkie testy przepustowości mogą mieć wpływ na sieć między lokalizacjami — w przypadku korzystania z sieci WAN dla replikacji Site2Site należy poinformować klienta, że ten test powinien być przeprowadzany w niskich godzinach pracy i biorąc pod uwagę, że sieć, dla której przeprowadzany jest test, nie będzie nadawała się do użytku w czasie trwania testu. 

Sprawdź, czy przeprowadzasz test wystarczająco długo, aby uzyskać prawidłowe odczyty - takie jak przesyłanie dużych wolumenów - pamiętaj również, że ten test obciąża sieć klientów.

 Ośrodek 1

 [root@112AX-7 ~]# iperf3 -s
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------
Accepted connection from 172.24.1.174, port 54882
[  5] local 172.24.1.173 port 5201 connected to 172.24.1.174 port 54886
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-1.00   sec  2.76 GBytes  23.7 Gbits/sec                  
[  5]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec                  
[  5]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   5.00-5.04   sec   114 MBytes  24.7 Gbits/sec                  
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-5.04   sec  0.00 Bytes  0.00 bits/sec                  sender
[  5]   0.00-5.04   sec  14.4 GBytes  24.5 Gbits/sec                  receiver
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------

Ośrodek 2

 [root@112AX-8 ~]# iperf3 -c 172.24.1.173 -i 1 -t 5
Connecting to host 172.24.1.173, port 5201
[  4] local 172.24.1.174 port 54886 connected to 172.24.1.173 port 5201
[ ID] Interval           Transfer     Bandwidth       Retr  Cwnd
[  4]   0.00-1.00   sec  2.87 GBytes  24.7 Gbits/sec   12    734 KBytes       
[  4]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec    0    786 KBytes       
[  4]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec    0    804 KBytes       
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth       Retr
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec   12             sender
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec                  receiveriperf Done.

 

Wpływ

Replikacja nie została ustanowiona — lokacja 1 nie będzie spójna z lokacją site2, jeśli istnieje replikacja z lokacji produkcyjnej do lokacji DR, lokacja DR nie może zostać przejęta, jeśli istnieje scenariusz przełączania awaryjnego.

Cause

Sprawdź, czy proces SDR jest uruchomiony i stabilny na obu lokalizacjach — jeśli tak, to najprawdopodobniej główna przyczyna jest związana z problemami z siecią między lokacjami 1 i 2, dlatego PowerFlex nie jest odpowiedzialny za początkowy problem z kopiowaniem. To powiedziawszy, początkowa kopia nie będzie działać, jeśli problemy z siecią nie zostaną rozwiązane.

Problem może być jeden z następujących elementów:

  1. Nieprawidłowa konfiguracja adresów IP modułu SDR
  2. Brak trasy między modułami SDR w lokalizacji1 a modułami SDR w lokalizacji2
  3. Role IP SDR są nieprawidłowo skonfigurowane
  4. Sprawdź, czy zapora sprawdza, czy port 11088 nie jest zablokowany
  5. Nieprawidłowa/niewyrównana konfiguracja MTU między lokalizacjami
  6. Wszelkie inne problemy z siecią

Resolution

Obejście problemu

  1. Aby sprawdzić poprawność łączności między modułami SDR, uruchom polecenie scli --query_disconnection --print_all - sprawdź, czy nie ma odłączonych SDR-ów.
  2. Jeśli wszystkie są połączone, ale początkowa kopia nadal kończy się niepowodzeniem, wykonaj test przepustowości między lokacjami site1 i site2, jak opisano powyżej w przykładzie iperf

Jeśli nie znaleziono problemów z siecią, a łączność między modułami SDR działa prawidłowo, wykonaj test przepustowości. Jeśli test zakończy się pomyślnie, ale początkowa kopia zakończy się niepowodzeniem, eskaluj problem do PowerFlex L3.

Uwaga: Jeśli sieć działa prawidłowo, ale wolumin źródłowy jest duży i początkowa kopia nie kończy się, sprawdź, czy w podręczniku użytkownika znajduje się opcja "Kopia początkowa offline".  

Wersje, których dotyczy problem

Wszystkie wersje PowerFlex z replikacją

Naprawiono w wersji

To nie jest problem związany z rozwiązaniem PowerFlex.

Affected Products

PowerFlex rack, ScaleIO
Article Properties
Article Number: 000204785
Article Type: Solution
Last Modified: 21 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.