Реплікація PowerFlex - помилка початкового копіювання

Summary: Початковий хід копіювання застопорився. Іноді йому може вдаватися досягти 100% завершення для невеликих обсягів, тоді як великі обсяги не змогли завершити початковий примірник.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Сценарій

Якщо є проблеми з мережею або низька пропускна здатність між джерелом і цільовими системами, початковий етап копіювання може так і не завершитися.

Можливий сценарій полягає в тому, що початкова копія буде завершена для невеликих обсягів, однак у групах узгодженості реплікації (RCG), які містять великі обсяги, вихідний і цільовий обсяги не можуть досягти 100% узгодженості, а використання ємності вихідного журналу збільшується в міру надходження нових записів на обсяг джерела.

Примітка: Навіть якщо великий обсяг вихідного коду може завершити початкову копію, або якщо було зроблено початкову копію в автономному режимі, якщо є проблеми з мережею та запис/перезапис на вихідному томі, ми можемо не досягти RPO та втратити узгодженість між джерелом та цільовим об'єктом. 

Симптоми

  1. Початковий прогрес копіювання зависає, наприклад, "Прогрес початкового копіювання" постійно відображатиме 70%: 

 # scli --query_all_replication_pairs
Local Id: bf50999700000000 Remote Id: bad02d5600000000 Copy Type: ONLINE_COPY Initial Copy State: ACTIVE Name: Rep
Local Volume Id: 2236ff5400000001 Remote Volume Id: 831e94c40000000d Local Volume Name: vol_lir1 Remote Volume Name: vol_lir1
Initial Copy progress: 70%
query_all_replication_pairs returned 1 Replication Pairs.

2- При перевірці трас СДР виявляються наступні помилки: Проблеми з мережею

 27/02 13:39:11.051442 (nil):netCon_ExchangeNewCon_CK:03589: ERROR: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148, Can't send NEW_CON message
27/02 13:39:11.051454 (nil):netCon_ConnectToPeer_CK:03519: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148 rollback connect
27/02 13:39:11.092475 (nil):netCon_IsKaNeeded:04338: ERROR: CON 0x7f42a80fb660 failed to send for 180 iterations. Marking as down
.
.
.
27/02 13:39:12.628337 (nil):mapVolIO_ReportIOErrorIfNeeded:00469: Vol ID 0x21c5f4c600000032. Last vol network error status NOT_CONN(4) Reason (NOT_CONN) RC (NOT_CONN) Retry count (0) chan (0) Total IO millis (1010)
27/02 13:39:12.637268 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d59b17d8. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)
27/02 13:39:12.637288 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d5a46030. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)

Початковий стан копіювання, коли малі обсяги допустимі, але більші один раз не можуть завершитися.

 27/02 13:39:10.774502 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01871: (SDR_INITIAL_COPIER) Initial Copier - Got 2 SYSTEM_INITIAL_COPY CGs and 1 done VAEs
27/02 13:39:10.774520 0x7f42814f9db0:initialCopierCg_FillCgVaeDoneMsg:01963: (SDR_INITIAL_COPIER) Filled VAE Done MSG for Pair-Id de9ddcc900000001, GenNum: 2137, VaeId: 14
27/02 13:39:10.774633 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01921: (SDR_INITIAL_COPIER) Initial Copier - Total number of 1 VAEs will be reported as Done

3- Перевіряючи з'єднання SDR, ви можете побачити деякі або всі з'єднання SDR-SDR як відключені.

 scli --query_disconnection --print_all
peer_system ID: ff74bce300000000 Name: DR_PFlex_GW
SDR-SDR connectivity status: Multiple disconnections
SDR ID: 2d01669c00000000 Name: Sdr-172.24.194.137 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669d00000001 Name: Sdr-172.24.194.138 is disconnected from:
	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669e00000002 Name: Sdr-172.24.194.135 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669f00000003 Name: Sdr-172.24.194.136 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7

 

4- Навіть якщо з усім підключенням SDR до SDR все гаразд, можлива умова з тими ж симптомами помилки початкового копіювання може виникнути, якщо ємність мережі низька, а пропускної здатності недостатньо для успішного завершення початкового копіювання.

Щоб протестувати пропускну здатність між двома сайтами, можна використовувати різні інструменти - наприклад, "iperf":

Будь-яке тестування пропускної здатності може вплинути на мережу між сайтами - якщо використовується WAN для реплікації Site2Site, повідомте клієнта, що цей тест повинен проводитися в неробочий час і враховуючи, що мережа, для якої проводиться тест, не буде використовуватися протягом тривалості тесту. 

Переконайтеся, що ви проводите тест достатньо довго, щоб мати правильні показники - наприклад, передача великих обсягів - також зверніть увагу, що цей тест створює навантаження на мережу клієнтів.

 Майданчик 1

 [root@112AX-7 ~]# iperf3 -s
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------
Accepted connection from 172.24.1.174, port 54882
[  5] local 172.24.1.173 port 5201 connected to 172.24.1.174 port 54886
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-1.00   sec  2.76 GBytes  23.7 Gbits/sec                  
[  5]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec                  
[  5]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   5.00-5.04   sec   114 MBytes  24.7 Gbits/sec                  
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-5.04   sec  0.00 Bytes  0.00 bits/sec                  sender
[  5]   0.00-5.04   sec  14.4 GBytes  24.5 Gbits/sec                  receiver
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------

Майданчик 2

 [root@112AX-8 ~]# iperf3 -c 172.24.1.173 -i 1 -t 5
Connecting to host 172.24.1.173, port 5201
[  4] local 172.24.1.174 port 54886 connected to 172.24.1.173 port 5201
[ ID] Interval           Transfer     Bandwidth       Retr  Cwnd
[  4]   0.00-1.00   sec  2.87 GBytes  24.7 Gbits/sec   12    734 KBytes       
[  4]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec    0    786 KBytes       
[  4]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec    0    804 KBytes       
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth       Retr
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec   12             sender
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec                  receiveriperf Done.

 

Вплив

Реплікація не встановлена - сайт1 не буде відповідати сайту 2, якщо відбувається реплікація з сайту Production на DR, сайт DR не може обігнати, якщо є сценарій відмовостійкості.

Cause

Переконайтеся, що процес SDR запущений і стабільний на обох сайтах - якщо це так, то загальна коренева причина, швидше за все, пов'язана з проблемами мережі між сайтами1 і сайтами 2, отже, PowerFlex не несе відповідальності за початкову проблему з копіюванням. З огляду на це, початкова копія не працюватиме, якщо не вирішити проблеми з мережею.

Проблема може полягати в одній з наступних:

  1. Неправильна конфігурація IP-адрес SDR
  2. Немає маршруту між СПЗ на ділянці1 та СПЗ на ділянці2
  3. IP-ролі SDR неправильно налаштовані
  4. Переконайтеся, що брандмауер підтвердив, що порт 11088 не заблоковано
  5. Неправильна/неузгоджена конфігурація MTU між сайтами
  6. Будь-яка інша проблема з мережею

Resolution

Спосіб вирішення проблеми

  1. Щоб перевірити з'єднання між SDR, запустіть scli --query_disconnection --print_all - перевірити, чи немає відключених SDR.
  2. Якщо всі підключені, але початкова копія все одно не вдається, будь ласка, виконайте тест пропускної здатності між сайтами1 і сайтами2, як описано вище в прикладі з iperf

Якщо проблем із мережею не виявлено, а підключення SDR до SDR нормальне, виконайте тест пропускної здатності, а якщо тест повернувся успішно, але початкове копіювання не вдалося завершити, перетворіть проблему на PowerFlex L3.

Примітка: Якщо з мережею все гаразд, але вихідний обсяг великий, а початкове копіювання не вдається завершити, перевірте в посібнику користувача опцію «початкова копія в автономному режимі».  

Версії, на які це вплинуло

У всіх версіях PowerFlex виконується реплікація

Виправлено у версії

Не пов'язана з PowerFlex проблемою

Affected Products

PowerFlex rack, ScaleIO
Article Properties
Article Number: 000204785
Article Type: Solution
Last Modified: 21 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.