Репликация PowerFlex — сбой первоначального копирования

Summary: Ход выполнения первоначального копирования завис. Иногда для небольших томов может удаваться достичь 100% завершения, в то время как для больших томов не удается завершить первоначальное копирование. ...

Ez a cikk a következő(k)re vonatkozik: Ez a cikk nem vonatkozik a következő(k)re: Ez a cikk nem kapcsolódik egyetlen konkrét termékhez sem. Ez a cikk nem azonosítja az összes termékverziót.

Symptoms

Сценарий

При наличии проблем с сетью или низкой пропускной способности между исходной и целевой системами этап первоначального копирования может никогда не завершиться.

Возможный сценарий заключается в том, что первоначальное копирование будет завершено для томов малого размера, однако в группах консистентности репликации (RCG), содержащих большие тома, исходный и целевой тома не могут достичь 100%-й согласованности, а коэффициент использования емкости исходного журнала увеличивается по мере поступления на исходный том новых операций записи.

Примечание. Даже если исходный том может завершить первоначальное копирование или если было выполнено первоначальное копирование в автономном режиме, при наличии проблем с сетью и операциях записи/перезаписи на исходном томе мы можем не обеспечить целевую точку восстановления и потерять согласованность между исходным и целевым ресурсами. 

Симптомы

  1. Ход выполнения первоначального копирования завис, например, в поле «Initial Copy Progress» будет постоянно отображаться 70%: 

 # scli --query_all_replication_pairs
Local Id: bf50999700000000 Remote Id: bad02d5600000000 Copy Type: ONLINE_COPY Initial Copy State: ACTIVE Name: Rep
Local Volume Id: 2236ff5400000001 Remote Volume Id: 831e94c40000000d Local Volume Name: vol_lir1 Remote Volume Name: vol_lir1
Initial Copy progress: 70%
query_all_replication_pairs returned 1 Replication Pairs.

2- При проверке трассировки SDR выявлены следующие ошибки: Проблемы с сетью

 27/02 13:39:11.051442 (nil):netCon_ExchangeNewCon_CK:03589: ERROR: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148, Can't send NEW_CON message
27/02 13:39:11.051454 (nil):netCon_ConnectToPeer_CK:03519: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148 rollback connect
27/02 13:39:11.092475 (nil):netCon_IsKaNeeded:04338: ERROR: CON 0x7f42a80fb660 failed to send for 180 iterations. Marking as down
.
.
.
27/02 13:39:12.628337 (nil):mapVolIO_ReportIOErrorIfNeeded:00469: Vol ID 0x21c5f4c600000032. Last vol network error status NOT_CONN(4) Reason (NOT_CONN) RC (NOT_CONN) Retry count (0) chan (0) Total IO millis (1010)
27/02 13:39:12.637268 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d59b17d8. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)
27/02 13:39:12.637288 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d5a46030. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)

Состояние начального копирования, при котором небольшие тома в порядке, но большие после этого не могут быть завершены.

 27/02 13:39:10.774502 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01871: (SDR_INITIAL_COPIER) Initial Copier - Got 2 SYSTEM_INITIAL_COPY CGs and 1 done VAEs
27/02 13:39:10.774520 0x7f42814f9db0:initialCopierCg_FillCgVaeDoneMsg:01963: (SDR_INITIAL_COPIER) Filled VAE Done MSG for Pair-Id de9ddcc900000001, GenNum: 2137, VaeId: 14
27/02 13:39:10.774633 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01921: (SDR_INITIAL_COPIER) Initial Copier - Total number of 1 VAEs will be reported as Done

3- При проверке подключения SDR могут отображаться некоторые или все соединения SDR/SDR как отключенные.

 scli --query_disconnection --print_all
peer_system ID: ff74bce300000000 Name: DR_PFlex_GW
SDR-SDR connectivity status: Multiple disconnections
SDR ID: 2d01669c00000000 Name: Sdr-172.24.194.137 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669d00000001 Name: Sdr-172.24.194.138 is disconnected from:
	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669e00000002 Name: Sdr-172.24.194.135 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669f00000003 Name: Sdr-172.24.194.136 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7

 

4- Даже если все подключения SDR-SDR исправны, может возникнуть состояние с теми же признаками сбоя первоначального копирования, если пропускная способность сети недостаточна для успешного завершения первоначального копирования.

Чтобы проверить пропускную способность между двумя сайтами, можно использовать разные инструменты — например, «iperf»:

Любое тестирование пропускной способности может повлиять на сеть между площадками. Если для репликации Site2Site используется глобальная сеть, сообщите заказчику, что этот тест следует проводить в нерабочее время, учитывая, что сеть, для которой проводится тестирование, будет непригодна для использования во время тестирования. 

Убедитесь, что вы выполняете тест достаточно долго, чтобы получить правильные показания - например, при передаче больших объемов - также обратите внимание, что этот тест создает нагрузку на сеть клиентов.

 Площадка 1

 [root@112AX-7 ~]# iperf3 -s
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------
Accepted connection from 172.24.1.174, port 54882
[  5] local 172.24.1.173 port 5201 connected to 172.24.1.174 port 54886
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-1.00   sec  2.76 GBytes  23.7 Gbits/sec                  
[  5]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec                  
[  5]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   5.00-5.04   sec   114 MBytes  24.7 Gbits/sec                  
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-5.04   sec  0.00 Bytes  0.00 bits/sec                  sender
[  5]   0.00-5.04   sec  14.4 GBytes  24.5 Gbits/sec                  receiver
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------

Площадка 2

 [root@112AX-8 ~]# iperf3 -c 172.24.1.173 -i 1 -t 5
Connecting to host 172.24.1.173, port 5201
[  4] local 172.24.1.174 port 54886 connected to 172.24.1.173 port 5201
[ ID] Interval           Transfer     Bandwidth       Retr  Cwnd
[  4]   0.00-1.00   sec  2.87 GBytes  24.7 Gbits/sec   12    734 KBytes       
[  4]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec    0    786 KBytes       
[  4]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec    0    804 KBytes       
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth       Retr
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec   12             sender
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec                  receiveriperf Done.

 

Воздействие

Репликация не установлена — площадка site1 не будет согласована с площадкой site2. В случае репликации с производственной площадки на площадку аварийного восстановления площадка не сможет выполнить обгон при сценарии переключения на резервный ресурс.

Cause

Убедитесь, что процесс SDR запущен и стабилен на обеих площадках. Если это так, то общая корневая причина, скорее всего, связана с проблемами сети между площадками 1 и 2, поэтому PowerFlex не несет ответственности за проблему первоначального копирования. При этом первоначальное копирование не будет работать, если не будут устранены проблемы с сетью.

Проблема может быть одной из следующей:

  1. Неправильная конфигурация IP-адресов SDR
  2. Нет маршрута между SDR на площадке 1 и SDR на площадке 2
  3. IP-роли SDR настроены неправильно
  4. Убедитесь, что межсетевой экран подтверждает, что порт 11088 не заблокирован
  5. Неправильная/несогласованная конфигурация MTU между площадками
  6. Любая другая проблема с сетью

Resolution

Временное решение

  1. Чтобы проверить возможность подключения между SDR, выполните scli --query_disconnection --print_all - убедиться в отсутствии отключенных SDR.
  2. Если все подключены, но первоначальное копирование по-прежнему завершается сбоем, выполните проверку пропускной способности между площадками 1 и 2, как описано выше в примере iperf

Если проблем с сетью не обнаружено и подключение SDR-SDR нормальное, выполните проверку пропускной способности. Если тест возвращается успешно, но первоначальное копирование не завершается, эскалируйте проблему на PowerFlex L3.

Примечание. Если сеть в норме, но исходный том большой и первоначальное копирование завершить не удается, проверьте в руководстве пользователя параметр «Автономное первоначальное копирование».  

Затронутые версии

Все версии PowerFlex, на которых запущена репликация

Исправлено в версии

Не связано с PowerFlex

Érintett termékek

PowerFlex rack, ScaleIO
Termék tulajdonságai
Article Number: 000204785
Article Type: Solution
Utoljára módosítva: 21 okt. 2025
Version:  6
Választ kaphat kérdéseire más Dell-felhasználóktól
Támogatási szolgáltatások
Ellenőrizze, hogy a készüléke rendelkezik-e támogatási szolgáltatással.