Replikace PowerFlex – selhání počáteční kopie

Summary: Počáteční průběh kopírování se zasekne. Někdy se může podařit dosáhnout 100% dokončení pro malé svazky, zatímco u velkých svazků se nepodařilo dokončit počáteční kopii.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Scénář

Pokud dojde k problémům se sítí nebo nízké šířce pásma mezi zdrojovým a cílovým systémem, počáteční fáze kopírování se nemusí nikdy dokončit.

Možným scénářem je, že počáteční kopie bude dokončena pro malé svazky, ale u skupin konzistence replikace (RCG), které obsahují velké svazky, zdrojové a cílové svazky nemohou dosáhnout 100% konzistence a využití kapacity zdrojového deníku se zvyšuje s tím, jak zdrojový svazek přijímá nové zápisy.

Poznámka: I v případě, že velký zdrojový svazek může dokončit počáteční kopii nebo pokud byla provedena offline počáteční kopie, pokud dojde k problémům se sítí a zápisy nebo přepisy na zdrojovém svazku, nemusí dojít ke splnění cíle bodu obnovení a ztrátě konzistence mezi zdrojem a cílem. 

Příznaky

  1. Počáteční průběh kopírování se zasekne, například "Průběh počátečního kopírování" bude trvale zobrazovat 70 %: 

 # scli --query_all_replication_pairs
Local Id: bf50999700000000 Remote Id: bad02d5600000000 Copy Type: ONLINE_COPY Initial Copy State: ACTIVE Name: Rep
Local Volume Id: 2236ff5400000001 Remote Volume Id: 831e94c40000000d Local Volume Name: vol_lir1 Remote Volume Name: vol_lir1
Initial Copy progress: 70%
query_all_replication_pairs returned 1 Replication Pairs.

2 – Kontrola trasování SDR Jsou identifikovány další chyby: Potíže se sítí

 27/02 13:39:11.051442 (nil):netCon_ExchangeNewCon_CK:03589: ERROR: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148, Can't send NEW_CON message
27/02 13:39:11.051454 (nil):netCon_ConnectToPeer_CK:03519: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148 rollback connect
27/02 13:39:11.092475 (nil):netCon_IsKaNeeded:04338: ERROR: CON 0x7f42a80fb660 failed to send for 180 iterations. Marking as down
.
.
.
27/02 13:39:12.628337 (nil):mapVolIO_ReportIOErrorIfNeeded:00469: Vol ID 0x21c5f4c600000032. Last vol network error status NOT_CONN(4) Reason (NOT_CONN) RC (NOT_CONN) Retry count (0) chan (0) Total IO millis (1010)
27/02 13:39:12.637268 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d59b17d8. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)
27/02 13:39:12.637288 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d5a46030. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)

Počáteční stav kopírování, kdy malé svazky jsou v pořádku, ale větší svazky nelze dokončit.

 27/02 13:39:10.774502 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01871: (SDR_INITIAL_COPIER) Initial Copier - Got 2 SYSTEM_INITIAL_COPY CGs and 1 done VAEs
27/02 13:39:10.774520 0x7f42814f9db0:initialCopierCg_FillCgVaeDoneMsg:01963: (SDR_INITIAL_COPIER) Filled VAE Done MSG for Pair-Id de9ddcc900000001, GenNum: 2137, VaeId: 14
27/02 13:39:10.774633 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01921: (SDR_INITIAL_COPIER) Initial Copier - Total number of 1 VAEs will be reported as Done

3 – Při kontrole připojení SDR se mohou některá nebo všechna připojení SDR k SDR zobrazit jako odpojená.

 scli --query_disconnection --print_all
peer_system ID: ff74bce300000000 Name: DR_PFlex_GW
SDR-SDR connectivity status: Multiple disconnections
SDR ID: 2d01669c00000000 Name: Sdr-172.24.194.137 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669d00000001 Name: Sdr-172.24.194.138 is disconnected from:
	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669e00000002 Name: Sdr-172.24.194.135 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669f00000003 Name: Sdr-172.24.194.136 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7

 

4 – I když je veškerá konektivita SDR na SDR v pořádku, může dojít k možnému stavu se stejnými příznaky selhání počátečního kopírování, pokud je kapacita sítě nízká a není dostatečná šířka pásma pro úspěšné dokončení počáteční kopie.

Chcete-li otestovat šířku pásma mezi těmito dvěma weby, můžete použít různé nástroje - například "iperf":

Jakékoli testování šířky pásma může mít vliv na síť mezi lokalitami – pokud se pro replikaci Site2Site používá síť WAN, informujte zákazníka, že tento test by měl být proveden mimo pracovní dobu a vzhledem k tomu, že síť, pro kterou se test provádí, nebude po dobu trvání testu použitelná. 

Ověřte, zda test provádíte dostatečně dlouho, abyste získali správné hodnoty – například přenos velkých objemů – a mějte také na paměti, že tento test zatěžuje síť zákazníků.

 Lokalita 1

 [root@112AX-7 ~]# iperf3 -s
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------
Accepted connection from 172.24.1.174, port 54882
[  5] local 172.24.1.173 port 5201 connected to 172.24.1.174 port 54886
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-1.00   sec  2.76 GBytes  23.7 Gbits/sec                  
[  5]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec                  
[  5]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   5.00-5.04   sec   114 MBytes  24.7 Gbits/sec                  
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-5.04   sec  0.00 Bytes  0.00 bits/sec                  sender
[  5]   0.00-5.04   sec  14.4 GBytes  24.5 Gbits/sec                  receiver
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------

Lokalita 2

 [root@112AX-8 ~]# iperf3 -c 172.24.1.173 -i 1 -t 5
Connecting to host 172.24.1.173, port 5201
[  4] local 172.24.1.174 port 54886 connected to 172.24.1.173 port 5201
[ ID] Interval           Transfer     Bandwidth       Retr  Cwnd
[  4]   0.00-1.00   sec  2.87 GBytes  24.7 Gbits/sec   12    734 KBytes       
[  4]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec    0    786 KBytes       
[  4]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec    0    804 KBytes       
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth       Retr
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec   12             sender
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec                  receiveriperf Done.

 

Důsledky

Replikace není navázána – lokalita 1 nebude konzistentní s lokalitou 2, pokud dojde k replikaci z produkčního prostředí do lokality zotavení po havárii, lokalita zotavení po havárii nebude moci přebírat, pokud dojde ke scénáři převzetí služeb při selhání.

Cause

Ověřte, zda je proces SDR spuštěný a stabilní v obou lokalitách – pokud ano, pak hlavní příčina s největší pravděpodobností souvisí se síťovými problémy mezi lokalitami 1 a 2, proto systém PowerFlex nenese odpovědnost za problém s počáteční kopií. Jak již bylo řečeno, počáteční kopie nebude fungovat, pokud nebudou ošetřeny problémy se sítí.

Problém může být jeden z následujících:

  1. Špatná konfigurace IP adres SDR
  2. Žádná trasa mezi SDR v lokalitě 1 a SDR v lokalitě 2
  3. Role IP adres SDR jsou nesprávně nakonfigurované.
  4. Zkontrolujte, zda brána firewall ověřuje, zda port 11088 není blokovaný.
  5. Špatná/nesladěná konfigurace jednotky MTU mezi pracovišti
  6. Jakýkoli jiný problém se sítí

Resolution

Zástupné řešení

  1. Pokud chcete ověřit připojení mezi SDR, spusťte příkaz scli --query_disconnection --print_all - Ověřte, že neexistují žádná odpojená SDR.
  2. Pokud jsou všichni připojeni, ale počáteční kopie stále selže, proveďte test šířky pásma mezi lokalitami 1 a lokalitami 2, jak je popsáno výše v příkladu nástroje iperf

Pokud nejsou nalezeny žádné problémy se sítí a připojení SDR na SDR je v pořádku, proveďte test šířky pásma. Pokud test proběhne úspěšně, ale počáteční kopírování se nedokončí, eskalujte problém na oddělení PowerFlex L3.

Poznámka: Pokud je síť v pořádku, ale zdrojový svazek je velký a počáteční kopie se nedokončí, vyhledejte v uživatelské příručce možnost "offline initial copy".  

Dotčené verze

Všechny verze PowerFlex s replikací

Opraveno ve verzi

Nejedná se o problém související se zařízením PowerFlex.

Affected Products

PowerFlex rack, ScaleIO
Article Properties
Article Number: 000204785
Article Type: Solution
Last Modified: 21 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.