Репликация PowerFlex — сбой первоначального копирования
Summary: Ход выполнения первоначального копирования завис. Иногда для небольших томов может удаваться достичь 100% завершения, в то время как для больших томов не удается завершить первоначальное копирование. ...
Symptoms
Сценарий
При наличии проблем с сетью или низкой пропускной способности между исходной и целевой системами этап первоначального копирования может никогда не завершиться.
Возможный сценарий заключается в том, что первоначальное копирование будет завершено для томов малого размера, однако в группах консистентности репликации (RCG), содержащих большие тома, исходный и целевой тома не могут достичь 100%-й согласованности, а коэффициент использования емкости исходного журнала увеличивается по мере поступления на исходный том новых операций записи.
Примечание. Даже если исходный том может завершить первоначальное копирование или если было выполнено первоначальное копирование в автономном режиме, при наличии проблем с сетью и операциях записи/перезаписи на исходном томе мы можем не обеспечить целевую точку восстановления и потерять согласованность между исходным и целевым ресурсами.
Симптомы
-
Ход выполнения первоначального копирования завис, например, в поле «Initial Copy Progress» будет постоянно отображаться 70%:
# scli --query_all_replication_pairs Local Id: bf50999700000000 Remote Id: bad02d5600000000 Copy Type: ONLINE_COPY Initial Copy State: ACTIVE Name: Rep Local Volume Id: 2236ff5400000001 Remote Volume Id: 831e94c40000000d Local Volume Name: vol_lir1 Remote Volume Name: vol_lir1 Initial Copy progress: 70% query_all_replication_pairs returned 1 Replication Pairs.
2- При проверке трассировки SDR выявлены следующие ошибки: Проблемы с сетью
27/02 13:39:11.051442 (nil):netCon_ExchangeNewCon_CK:03589: ERROR: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148, Can't send NEW_CON message 27/02 13:39:11.051454 (nil):netCon_ConnectToPeer_CK:03519: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148 rollback connect 27/02 13:39:11.092475 (nil):netCon_IsKaNeeded:04338: ERROR: CON 0x7f42a80fb660 failed to send for 180 iterations. Marking as down . . . 27/02 13:39:12.628337 (nil):mapVolIO_ReportIOErrorIfNeeded:00469: Vol ID 0x21c5f4c600000032. Last vol network error status NOT_CONN(4) Reason (NOT_CONN) RC (NOT_CONN) Retry count (0) chan (0) Total IO millis (1010) 27/02 13:39:12.637268 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d59b17d8. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4) 27/02 13:39:12.637288 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d5a46030. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)
Состояние начального копирования, при котором небольшие тома в порядке, но большие после этого не могут быть завершены.
27/02 13:39:10.774502 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01871: (SDR_INITIAL_COPIER) Initial Copier - Got 2 SYSTEM_INITIAL_COPY CGs and 1 done VAEs 27/02 13:39:10.774520 0x7f42814f9db0:initialCopierCg_FillCgVaeDoneMsg:01963: (SDR_INITIAL_COPIER) Filled VAE Done MSG for Pair-Id de9ddcc900000001, GenNum: 2137, VaeId: 14 27/02 13:39:10.774633 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01921: (SDR_INITIAL_COPIER) Initial Copier - Total number of 1 VAEs will be reported as Done
3- При проверке подключения SDR могут отображаться некоторые или все соединения SDR/SDR как отключенные.
scli --query_disconnection --print_all peer_system ID: ff74bce300000000 Name: DR_PFlex_GW SDR-SDR connectivity status: Multiple disconnections SDR ID: 2d01669c00000000 Name: Sdr-172.24.194.137 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669d00000001 Name: Sdr-172.24.194.138 is disconnected from: SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669e00000002 Name: Sdr-172.24.194.135 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669f00000003 Name: Sdr-172.24.194.136 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
4- Даже если все подключения SDR-SDR исправны, может возникнуть состояние с теми же признаками сбоя первоначального копирования, если пропускная способность сети недостаточна для успешного завершения первоначального копирования.
Чтобы проверить пропускную способность между двумя сайтами, можно использовать разные инструменты — например, «iperf»:
Любое тестирование пропускной способности может повлиять на сеть между площадками. Если для репликации Site2Site используется глобальная сеть, сообщите заказчику, что этот тест следует проводить в нерабочее время, учитывая, что сеть, для которой проводится тестирование, будет непригодна для использования во время тестирования.
Убедитесь, что вы выполняете тест достаточно долго, чтобы получить правильные показания - например, при передаче больших объемов - также обратите внимание, что этот тест создает нагрузку на сеть клиентов.
Площадка 1
[root@112AX-7 ~]# iperf3 -s ----------------------------------------------------------- Server listening on 5201 ----------------------------------------------------------- Accepted connection from 172.24.1.174, port 54882 [ 5] local 172.24.1.173 port 5201 connected to 172.24.1.174 port 54886 [ ID] Interval Transfer Bandwidth [ 5] 0.00-1.00 sec 2.76 GBytes 23.7 Gbits/sec [ 5] 1.00-2.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 2.00-3.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 3.00-4.00 sec 2.87 GBytes 24.7 Gbits/sec [ 5] 4.00-5.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 5.00-5.04 sec 114 MBytes 24.7 Gbits/sec - - - - - - - - - - - - - - - - - - - - - - - - - [ ID] Interval Transfer Bandwidth [ 5] 0.00-5.04 sec 0.00 Bytes 0.00 bits/sec sender [ 5] 0.00-5.04 sec 14.4 GBytes 24.5 Gbits/sec receiver ----------------------------------------------------------- Server listening on 5201 -----------------------------------------------------------
Площадка 2
[root@112AX-8 ~]# iperf3 -c 172.24.1.173 -i 1 -t 5 Connecting to host 172.24.1.173, port 5201 [ 4] local 172.24.1.174 port 54886 connected to 172.24.1.173 port 5201 [ ID] Interval Transfer Bandwidth Retr Cwnd [ 4] 0.00-1.00 sec 2.87 GBytes 24.7 Gbits/sec 12 734 KBytes [ 4] 1.00-2.00 sec 2.88 GBytes 24.7 Gbits/sec 0 778 KBytes [ 4] 2.00-3.00 sec 2.88 GBytes 24.7 Gbits/sec 0 778 KBytes [ 4] 3.00-4.00 sec 2.87 GBytes 24.7 Gbits/sec 0 786 KBytes [ 4] 4.00-5.00 sec 2.88 GBytes 24.7 Gbits/sec 0 804 KBytes - - - - - - - - - - - - - - - - - - - - - - - - - [ ID] Interval Transfer Bandwidth Retr [ 4] 0.00-5.00 sec 14.4 GBytes 24.7 Gbits/sec 12 sender [ 4] 0.00-5.00 sec 14.4 GBytes 24.7 Gbits/sec receiveriperf Done.
Воздействие
Репликация не установлена — площадка site1 не будет согласована с площадкой site2. В случае репликации с производственной площадки на площадку аварийного восстановления площадка не сможет выполнить обгон при сценарии переключения на резервный ресурс.
Cause
Убедитесь, что процесс SDR запущен и стабилен на обеих площадках. Если это так, то общая корневая причина, скорее всего, связана с проблемами сети между площадками 1 и 2, поэтому PowerFlex не несет ответственности за проблему первоначального копирования. При этом первоначальное копирование не будет работать, если не будут устранены проблемы с сетью.
Проблема может быть одной из следующей:
- Неправильная конфигурация IP-адресов SDR
- Нет маршрута между SDR на площадке 1 и SDR на площадке 2
- IP-роли SDR настроены неправильно
- Убедитесь, что межсетевой экран подтверждает, что порт 11088 не заблокирован
- Неправильная/несогласованная конфигурация MTU между площадками
- Любая другая проблема с сетью
Resolution
Временное решение
- Чтобы проверить возможность подключения между SDR, выполните
scli --query_disconnection --print_all- убедиться в отсутствии отключенных SDR. - Если все подключены, но первоначальное копирование по-прежнему завершается сбоем, выполните проверку пропускной способности между площадками 1 и 2, как описано выше в примере iperf.
Если проблем с сетью не обнаружено и подключение SDR-SDR нормальное, выполните проверку пропускной способности. Если тест возвращается успешно, но первоначальное копирование не завершается, эскалируйте проблему на PowerFlex L3.
Примечание. Если сеть в норме, но исходный том большой и первоначальное копирование завершить не удается, проверьте в руководстве пользователя параметр «Автономное первоначальное копирование».
Затронутые версии
Все версии PowerFlex, на которых запущена репликация
Исправлено в версии
Не связано с PowerFlex