Репликация PowerFlex — сбой первоначального копирования

Summary: Ход выполнения первоначального копирования завис. Иногда для небольших томов может удаваться достичь 100% завершения, в то время как для больших томов не удается завершить первоначальное копирование. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Сценарий

При наличии проблем с сетью или низкой пропускной способности между исходной и целевой системами этап первоначального копирования может никогда не завершиться.

Возможный сценарий заключается в том, что первоначальное копирование будет завершено для томов малого размера, однако в группах консистентности репликации (RCG), содержащих большие тома, исходный и целевой тома не могут достичь 100%-й согласованности, а коэффициент использования емкости исходного журнала увеличивается по мере поступления на исходный том новых операций записи.

Примечание. Даже если исходный том может завершить первоначальное копирование или если было выполнено первоначальное копирование в автономном режиме, при наличии проблем с сетью и операциях записи/перезаписи на исходном томе мы можем не обеспечить целевую точку восстановления и потерять согласованность между исходным и целевым ресурсами. 

Симптомы

  1. Ход выполнения первоначального копирования завис, например, в поле «Initial Copy Progress» будет постоянно отображаться 70%: 

 # scli --query_all_replication_pairs
Local Id: bf50999700000000 Remote Id: bad02d5600000000 Copy Type: ONLINE_COPY Initial Copy State: ACTIVE Name: Rep
Local Volume Id: 2236ff5400000001 Remote Volume Id: 831e94c40000000d Local Volume Name: vol_lir1 Remote Volume Name: vol_lir1
Initial Copy progress: 70%
query_all_replication_pairs returned 1 Replication Pairs.

2- При проверке трассировки SDR выявлены следующие ошибки: Проблемы с сетью

 27/02 13:39:11.051442 (nil):netCon_ExchangeNewCon_CK:03589: ERROR: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148, Can't send NEW_CON message
27/02 13:39:11.051454 (nil):netCon_ConnectToPeer_CK:03519: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148 rollback connect
27/02 13:39:11.092475 (nil):netCon_IsKaNeeded:04338: ERROR: CON 0x7f42a80fb660 failed to send for 180 iterations. Marking as down
.
.
.
27/02 13:39:12.628337 (nil):mapVolIO_ReportIOErrorIfNeeded:00469: Vol ID 0x21c5f4c600000032. Last vol network error status NOT_CONN(4) Reason (NOT_CONN) RC (NOT_CONN) Retry count (0) chan (0) Total IO millis (1010)
27/02 13:39:12.637268 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d59b17d8. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)
27/02 13:39:12.637288 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d5a46030. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)

Состояние начального копирования, при котором небольшие тома в порядке, но большие после этого не могут быть завершены.

 27/02 13:39:10.774502 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01871: (SDR_INITIAL_COPIER) Initial Copier - Got 2 SYSTEM_INITIAL_COPY CGs and 1 done VAEs
27/02 13:39:10.774520 0x7f42814f9db0:initialCopierCg_FillCgVaeDoneMsg:01963: (SDR_INITIAL_COPIER) Filled VAE Done MSG for Pair-Id de9ddcc900000001, GenNum: 2137, VaeId: 14
27/02 13:39:10.774633 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01921: (SDR_INITIAL_COPIER) Initial Copier - Total number of 1 VAEs will be reported as Done

3- При проверке подключения SDR могут отображаться некоторые или все соединения SDR/SDR как отключенные.

 scli --query_disconnection --print_all
peer_system ID: ff74bce300000000 Name: DR_PFlex_GW
SDR-SDR connectivity status: Multiple disconnections
SDR ID: 2d01669c00000000 Name: Sdr-172.24.194.137 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669d00000001 Name: Sdr-172.24.194.138 is disconnected from:
	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669e00000002 Name: Sdr-172.24.194.135 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669f00000003 Name: Sdr-172.24.194.136 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7

 

4- Даже если все подключения SDR-SDR исправны, может возникнуть состояние с теми же признаками сбоя первоначального копирования, если пропускная способность сети недостаточна для успешного завершения первоначального копирования.

Чтобы проверить пропускную способность между двумя сайтами, можно использовать разные инструменты — например, «iperf»:

Любое тестирование пропускной способности может повлиять на сеть между площадками. Если для репликации Site2Site используется глобальная сеть, сообщите заказчику, что этот тест следует проводить в нерабочее время, учитывая, что сеть, для которой проводится тестирование, будет непригодна для использования во время тестирования. 

Убедитесь, что вы выполняете тест достаточно долго, чтобы получить правильные показания - например, при передаче больших объемов - также обратите внимание, что этот тест создает нагрузку на сеть клиентов.

 Площадка 1

 [root@112AX-7 ~]# iperf3 -s
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------
Accepted connection from 172.24.1.174, port 54882
[  5] local 172.24.1.173 port 5201 connected to 172.24.1.174 port 54886
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-1.00   sec  2.76 GBytes  23.7 Gbits/sec                  
[  5]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec                  
[  5]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   5.00-5.04   sec   114 MBytes  24.7 Gbits/sec                  
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-5.04   sec  0.00 Bytes  0.00 bits/sec                  sender
[  5]   0.00-5.04   sec  14.4 GBytes  24.5 Gbits/sec                  receiver
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------

Площадка 2

 [root@112AX-8 ~]# iperf3 -c 172.24.1.173 -i 1 -t 5
Connecting to host 172.24.1.173, port 5201
[  4] local 172.24.1.174 port 54886 connected to 172.24.1.173 port 5201
[ ID] Interval           Transfer     Bandwidth       Retr  Cwnd
[  4]   0.00-1.00   sec  2.87 GBytes  24.7 Gbits/sec   12    734 KBytes       
[  4]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec    0    786 KBytes       
[  4]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec    0    804 KBytes       
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth       Retr
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec   12             sender
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec                  receiveriperf Done.

 

Воздействие

Репликация не установлена — площадка site1 не будет согласована с площадкой site2. В случае репликации с производственной площадки на площадку аварийного восстановления площадка не сможет выполнить обгон при сценарии переключения на резервный ресурс.

Cause

Убедитесь, что процесс SDR запущен и стабилен на обеих площадках. Если это так, то общая корневая причина, скорее всего, связана с проблемами сети между площадками 1 и 2, поэтому PowerFlex не несет ответственности за проблему первоначального копирования. При этом первоначальное копирование не будет работать, если не будут устранены проблемы с сетью.

Проблема может быть одной из следующей:

  1. Неправильная конфигурация IP-адресов SDR
  2. Нет маршрута между SDR на площадке 1 и SDR на площадке 2
  3. IP-роли SDR настроены неправильно
  4. Убедитесь, что межсетевой экран подтверждает, что порт 11088 не заблокирован
  5. Неправильная/несогласованная конфигурация MTU между площадками
  6. Любая другая проблема с сетью

Resolution

Временное решение

  1. Чтобы проверить возможность подключения между SDR, выполните scli --query_disconnection --print_all - убедиться в отсутствии отключенных SDR.
  2. Если все подключены, но первоначальное копирование по-прежнему завершается сбоем, выполните проверку пропускной способности между площадками 1 и 2, как описано выше в примере iperf

Если проблем с сетью не обнаружено и подключение SDR-SDR нормальное, выполните проверку пропускной способности. Если тест возвращается успешно, но первоначальное копирование не завершается, эскалируйте проблему на PowerFlex L3.

Примечание. Если сеть в норме, но исходный том большой и первоначальное копирование завершить не удается, проверьте в руководстве пользователя параметр «Автономное первоначальное копирование».  

Затронутые версии

Все версии PowerFlex, на которых запущена репликация

Исправлено в версии

Не связано с PowerFlex

Affected Products

PowerFlex rack, ScaleIO
Article Properties
Article Number: 000204785
Article Type: Solution
Last Modified: 21 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.