Replica PowerFlex - Errore di copia iniziale

Summary: L'avanzamento della copia iniziale è bloccato. A volte, potrebbe riuscire a raggiungere il completamento del 100% per piccoli volumi, mentre grandi volumi non sono riusciti a completare la copia iniziale. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Scenario

In caso di problemi di rete o di larghezza di banda ridotta tra i sistemi di origine e di destinazione, la fase di copia iniziale potrebbe non essere mai completata.

Uno scenario possibile è che la copia iniziale venga completata per volumi di piccole dimensioni, tuttavia nei consistency group di replica (RCG) che contengono volumi di grandi dimensioni, i volumi di origine e di destinazione non sono in grado di raggiungere il 100% di coerenza e l'utilizzo della capacità del journal di origine aumenta man mano che il volume di origine riceve nuove scritture.

Nota: Anche se il volume di origine di grandi dimensioni può terminare la copia iniziale o se è stata eseguita una copia iniziale offline, se si verificano problemi di rete e scritture/riscritture sul volume di origine, è possibile che non si raggiunga l'RPO e si perda la coerenza tra l'origine e la destinazione. 

Sintomi

  1. L'avanzamento della copia iniziale è bloccato, ad esempio "Initial Copy progress" mostrerà in modo permanente il 70%: 

 # scli --query_all_replication_pairs
Local Id: bf50999700000000 Remote Id: bad02d5600000000 Copy Type: ONLINE_COPY Initial Copy State: ACTIVE Name: Rep
Local Volume Id: 2236ff5400000001 Remote Volume Id: 831e94c40000000d Local Volume Name: vol_lir1 Remote Volume Name: vol_lir1
Initial Copy progress: 70%
query_all_replication_pairs returned 1 Replication Pairs.

2- Controllando le tracce SDR vengono identificati i seguenti errori: Problemi di rete

 27/02 13:39:11.051442 (nil):netCon_ExchangeNewCon_CK:03589: ERROR: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148, Can't send NEW_CON message
27/02 13:39:11.051454 (nil):netCon_ConnectToPeer_CK:03519: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148 rollback connect
27/02 13:39:11.092475 (nil):netCon_IsKaNeeded:04338: ERROR: CON 0x7f42a80fb660 failed to send for 180 iterations. Marking as down
.
.
.
27/02 13:39:12.628337 (nil):mapVolIO_ReportIOErrorIfNeeded:00469: Vol ID 0x21c5f4c600000032. Last vol network error status NOT_CONN(4) Reason (NOT_CONN) RC (NOT_CONN) Retry count (0) chan (0) Total IO millis (1010)
27/02 13:39:12.637268 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d59b17d8. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)
27/02 13:39:12.637288 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d5a46030. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)

Stato di copia iniziale, in cui i volumi di piccole dimensioni sono validi, ma quelli più grandi una volta che non sono in grado di essere completati.

 27/02 13:39:10.774502 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01871: (SDR_INITIAL_COPIER) Initial Copier - Got 2 SYSTEM_INITIAL_COPY CGs and 1 done VAEs
27/02 13:39:10.774520 0x7f42814f9db0:initialCopierCg_FillCgVaeDoneMsg:01963: (SDR_INITIAL_COPIER) Filled VAE Done MSG for Pair-Id de9ddcc900000001, GenNum: 2137, VaeId: 14
27/02 13:39:10.774633 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01921: (SDR_INITIAL_COPIER) Initial Copier - Total number of 1 VAEs will be reported as Done

3 - Controllando la connettività SDR, è possibile che alcune o tutte le connessioni da SDR a SDR siano disconnesse.

 scli --query_disconnection --print_all
peer_system ID: ff74bce300000000 Name: DR_PFlex_GW
SDR-SDR connectivity status: Multiple disconnections
SDR ID: 2d01669c00000000 Name: Sdr-172.24.194.137 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669d00000001 Name: Sdr-172.24.194.138 is disconnected from:
	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669e00000002 Name: Sdr-172.24.194.135 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669f00000003 Name: Sdr-172.24.194.136 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7

 

4 - Anche se tutta la connettività da SDR a SDR funziona correttamente, potrebbe verificarsi una possibile condizione con gli stessi sintomi di errore della copia iniziale se la capacità di rete è scarsa e la larghezza di banda non è sufficiente per completare correttamente la copia iniziale.

Per testare la larghezza di banda tra i due siti, è possibile utilizzare strumenti diversi, ad esempio "iperf":

Qualsiasi test della larghezza di banda potrebbe influire sulla rete tra i siti: se è presente l'utilizzo della WAN per la replica Site2Site, comunicare al cliente che questo test deve essere condotto in orari lavorativi ridotti e considerando che la rete per cui viene condotto il test non sarà utilizzabile per tutta la durata del test. 

Convalida di aver eseguito il test abbastanza a lungo da disporre di letture corrette, come il trasferimento di grandi volumi; tieni anche presente che questo test sollecita la rete dei clienti.

 Sito 1

 [root@112AX-7 ~]# iperf3 -s
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------
Accepted connection from 172.24.1.174, port 54882
[  5] local 172.24.1.173 port 5201 connected to 172.24.1.174 port 54886
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-1.00   sec  2.76 GBytes  23.7 Gbits/sec                  
[  5]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec                  
[  5]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   5.00-5.04   sec   114 MBytes  24.7 Gbits/sec                  
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-5.04   sec  0.00 Bytes  0.00 bits/sec                  sender
[  5]   0.00-5.04   sec  14.4 GBytes  24.5 Gbits/sec                  receiver
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------

Sito 2

 [root@112AX-8 ~]# iperf3 -c 172.24.1.173 -i 1 -t 5
Connecting to host 172.24.1.173, port 5201
[  4] local 172.24.1.174 port 54886 connected to 172.24.1.173 port 5201
[ ID] Interval           Transfer     Bandwidth       Retr  Cwnd
[  4]   0.00-1.00   sec  2.87 GBytes  24.7 Gbits/sec   12    734 KBytes       
[  4]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec    0    786 KBytes       
[  4]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec    0    804 KBytes       
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth       Retr
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec   12             sender
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec                  receiveriperf Done.

 

Impatto

La replica non è stabilita: il sito 1 non sarà coerente con il sito 2, se è presente la replica da un sito di produzione a un sito di DR, il sito di DR non può superare se è presente uno scenario di failover.

Cause

Verificare che il processo SDR sia avviato e stabile su entrambi i siti: in caso affermativo, la root cause generale è molto probabilmente correlata a problemi di rete tra il sito 1 e il sito 2, pertanto PowerFlex non è responsabile del problema di copia iniziale. Detto questo, la copia iniziale non funzionerà a meno che non vengano trattati i problemi di rete.

Il problema potrebbe essere uno dei seguenti:

  1. Configurazione errata degli IP SDR
  2. Nessuna route tra gli SDR nel sito 1 e gli SDR nel sito 2
  3. I ruoli IP SDR sono configurati in modo errato
  4. Verificare che il firewall convalidi che la porta 11088 non sia bloccata
  5. Configurazione MTU errata/non allineata tra i siti
  6. Qualsiasi altro problema di rete

Resolution

Soluzione alternativa

  1. Per convalidare la connettività tra gli SDR, eseguire scli --query_disconnection --print_all - verificare che non ci siano SDR disconnessi.
  2. Se tutti sono collegati, ma la copia iniziale continua a non riuscire, eseguire un test della larghezza di banda tra il sito 1 e il sito 2 come descritto in precedenza nell'esempio iperf

Se non sono stati rilevati problemi di rete e la connettività da SDR a SDR va bene, eseguire un test della larghezza di banda e, se il test restituisce un esito positivo ma la copia iniziale non viene completata, eseguire l'escalation del problema a PowerFlex L3.

Nota: Se la rete funziona correttamente, ma il volume di origine è di grandi dimensioni e la copia iniziale non viene completata, consultare il manuale dell'utente per l'opzione "copia iniziale offline".  

Versioni interessate

Tutte le versioni di PowerFlex che eseguono la replica

Risolto nella versione

Non è un problema correlato a PowerFlex

Affected Products

PowerFlex rack, ScaleIO
Article Properties
Article Number: 000204785
Article Type: Solution
Last Modified: 21 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.