Реплікація PowerFlex - помилка початкового копіювання
Summary: Початковий хід копіювання застопорився. Іноді йому може вдаватися досягти 100% завершення для невеликих обсягів, тоді як великі обсяги не змогли завершити початковий примірник.
Symptoms
Сценарій
Якщо є проблеми з мережею або низька пропускна здатність між джерелом і цільовими системами, початковий етап копіювання може так і не завершитися.
Можливий сценарій полягає в тому, що початкова копія буде завершена для невеликих обсягів, однак у групах узгодженості реплікації (RCG), які містять великі обсяги, вихідний і цільовий обсяги не можуть досягти 100% узгодженості, а використання ємності вихідного журналу збільшується в міру надходження нових записів на обсяг джерела.
Примітка: Навіть якщо великий обсяг вихідного коду може завершити початкову копію, або якщо було зроблено початкову копію в автономному режимі, якщо є проблеми з мережею та запис/перезапис на вихідному томі, ми можемо не досягти RPO та втратити узгодженість між джерелом та цільовим об'єктом.
Симптоми
-
Початковий прогрес копіювання зависає, наприклад, "Прогрес початкового копіювання" постійно відображатиме 70%:
# scli --query_all_replication_pairs Local Id: bf50999700000000 Remote Id: bad02d5600000000 Copy Type: ONLINE_COPY Initial Copy State: ACTIVE Name: Rep Local Volume Id: 2236ff5400000001 Remote Volume Id: 831e94c40000000d Local Volume Name: vol_lir1 Remote Volume Name: vol_lir1 Initial Copy progress: 70% query_all_replication_pairs returned 1 Replication Pairs.
2- При перевірці трас СДР виявляються наступні помилки: Проблеми з мережею
27/02 13:39:11.051442 (nil):netCon_ExchangeNewCon_CK:03589: ERROR: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148, Can't send NEW_CON message 27/02 13:39:11.051454 (nil):netCon_ConnectToPeer_CK:03519: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148 rollback connect 27/02 13:39:11.092475 (nil):netCon_IsKaNeeded:04338: ERROR: CON 0x7f42a80fb660 failed to send for 180 iterations. Marking as down . . . 27/02 13:39:12.628337 (nil):mapVolIO_ReportIOErrorIfNeeded:00469: Vol ID 0x21c5f4c600000032. Last vol network error status NOT_CONN(4) Reason (NOT_CONN) RC (NOT_CONN) Retry count (0) chan (0) Total IO millis (1010) 27/02 13:39:12.637268 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d59b17d8. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4) 27/02 13:39:12.637288 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d5a46030. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)
Початковий стан копіювання, коли малі обсяги допустимі, але більші один раз не можуть завершитися.
27/02 13:39:10.774502 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01871: (SDR_INITIAL_COPIER) Initial Copier - Got 2 SYSTEM_INITIAL_COPY CGs and 1 done VAEs 27/02 13:39:10.774520 0x7f42814f9db0:initialCopierCg_FillCgVaeDoneMsg:01963: (SDR_INITIAL_COPIER) Filled VAE Done MSG for Pair-Id de9ddcc900000001, GenNum: 2137, VaeId: 14 27/02 13:39:10.774633 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01921: (SDR_INITIAL_COPIER) Initial Copier - Total number of 1 VAEs will be reported as Done
3- Перевіряючи з'єднання SDR, ви можете побачити деякі або всі з'єднання SDR-SDR як відключені.
scli --query_disconnection --print_all peer_system ID: ff74bce300000000 Name: DR_PFlex_GW SDR-SDR connectivity status: Multiple disconnections SDR ID: 2d01669c00000000 Name: Sdr-172.24.194.137 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669d00000001 Name: Sdr-172.24.194.138 is disconnected from: SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669e00000002 Name: Sdr-172.24.194.135 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669f00000003 Name: Sdr-172.24.194.136 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
4- Навіть якщо з усім підключенням SDR до SDR все гаразд, можлива умова з тими ж симптомами помилки початкового копіювання може виникнути, якщо ємність мережі низька, а пропускної здатності недостатньо для успішного завершення початкового копіювання.
Щоб протестувати пропускну здатність між двома сайтами, можна використовувати різні інструменти - наприклад, "iperf":
Будь-яке тестування пропускної здатності може вплинути на мережу між сайтами - якщо використовується WAN для реплікації Site2Site, повідомте клієнта, що цей тест повинен проводитися в неробочий час і враховуючи, що мережа, для якої проводиться тест, не буде використовуватися протягом тривалості тесту.
Переконайтеся, що ви проводите тест достатньо довго, щоб мати правильні показники - наприклад, передача великих обсягів - також зверніть увагу, що цей тест створює навантаження на мережу клієнтів.
Майданчик 1
[root@112AX-7 ~]# iperf3 -s ----------------------------------------------------------- Server listening on 5201 ----------------------------------------------------------- Accepted connection from 172.24.1.174, port 54882 [ 5] local 172.24.1.173 port 5201 connected to 172.24.1.174 port 54886 [ ID] Interval Transfer Bandwidth [ 5] 0.00-1.00 sec 2.76 GBytes 23.7 Gbits/sec [ 5] 1.00-2.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 2.00-3.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 3.00-4.00 sec 2.87 GBytes 24.7 Gbits/sec [ 5] 4.00-5.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 5.00-5.04 sec 114 MBytes 24.7 Gbits/sec - - - - - - - - - - - - - - - - - - - - - - - - - [ ID] Interval Transfer Bandwidth [ 5] 0.00-5.04 sec 0.00 Bytes 0.00 bits/sec sender [ 5] 0.00-5.04 sec 14.4 GBytes 24.5 Gbits/sec receiver ----------------------------------------------------------- Server listening on 5201 -----------------------------------------------------------
Майданчик 2
[root@112AX-8 ~]# iperf3 -c 172.24.1.173 -i 1 -t 5 Connecting to host 172.24.1.173, port 5201 [ 4] local 172.24.1.174 port 54886 connected to 172.24.1.173 port 5201 [ ID] Interval Transfer Bandwidth Retr Cwnd [ 4] 0.00-1.00 sec 2.87 GBytes 24.7 Gbits/sec 12 734 KBytes [ 4] 1.00-2.00 sec 2.88 GBytes 24.7 Gbits/sec 0 778 KBytes [ 4] 2.00-3.00 sec 2.88 GBytes 24.7 Gbits/sec 0 778 KBytes [ 4] 3.00-4.00 sec 2.87 GBytes 24.7 Gbits/sec 0 786 KBytes [ 4] 4.00-5.00 sec 2.88 GBytes 24.7 Gbits/sec 0 804 KBytes - - - - - - - - - - - - - - - - - - - - - - - - - [ ID] Interval Transfer Bandwidth Retr [ 4] 0.00-5.00 sec 14.4 GBytes 24.7 Gbits/sec 12 sender [ 4] 0.00-5.00 sec 14.4 GBytes 24.7 Gbits/sec receiveriperf Done.
Вплив
Реплікація не встановлена - сайт1 не буде відповідати сайту 2, якщо відбувається реплікація з сайту Production на DR, сайт DR не може обігнати, якщо є сценарій відмовостійкості.
Cause
Переконайтеся, що процес SDR запущений і стабільний на обох сайтах - якщо це так, то загальна коренева причина, швидше за все, пов'язана з проблемами мережі між сайтами1 і сайтами 2, отже, PowerFlex не несе відповідальності за початкову проблему з копіюванням. З огляду на це, початкова копія не працюватиме, якщо не вирішити проблеми з мережею.
Проблема може полягати в одній з наступних:
- Неправильна конфігурація IP-адрес SDR
- Немає маршруту між СПЗ на ділянці1 та СПЗ на ділянці2
- IP-ролі SDR неправильно налаштовані
- Переконайтеся, що брандмауер підтвердив, що порт 11088 не заблоковано
- Неправильна/неузгоджена конфігурація MTU між сайтами
- Будь-яка інша проблема з мережею
Resolution
Спосіб вирішення проблеми
- Щоб перевірити з'єднання між SDR, запустіть
scli --query_disconnection --print_all- перевірити, чи немає відключених SDR. - Якщо всі підключені, але початкова копія все одно не вдається, будь ласка, виконайте тест пропускної здатності між сайтами1 і сайтами2, як описано вище в прикладі з iperf.
Якщо проблем із мережею не виявлено, а підключення SDR до SDR нормальне, виконайте тест пропускної здатності, а якщо тест повернувся успішно, але початкове копіювання не вдалося завершити, перетворіть проблему на PowerFlex L3.
Примітка: Якщо з мережею все гаразд, але вихідний обсяг великий, а початкове копіювання не вдається завершити, перевірте в посібнику користувача опцію «початкова копія в автономному режимі».
Версії, на які це вплинуло
У всіх версіях PowerFlex виконується реплікація
Виправлено у версії
Не пов'язана з PowerFlex проблемою