Replica PowerFlex - Errore di copia iniziale

Summary: L'avanzamento della copia iniziale è bloccato. A volte, potrebbe riuscire a raggiungere il completamento del 100% per piccoli volumi, mentre grandi volumi non sono riusciti a completare la copia iniziale. ...

Ez a cikk a következő(k)re vonatkozik: Ez a cikk nem vonatkozik a következő(k)re: Ez a cikk nem kapcsolódik egyetlen konkrét termékhez sem. Ez a cikk nem azonosítja az összes termékverziót.

Symptoms

Scenario

In caso di problemi di rete o di larghezza di banda ridotta tra i sistemi di origine e di destinazione, la fase di copia iniziale potrebbe non essere mai completata.

Uno scenario possibile è che la copia iniziale venga completata per volumi di piccole dimensioni, tuttavia nei consistency group di replica (RCG) che contengono volumi di grandi dimensioni, i volumi di origine e di destinazione non sono in grado di raggiungere il 100% di coerenza e l'utilizzo della capacità del journal di origine aumenta man mano che il volume di origine riceve nuove scritture.

Nota: Anche se il volume di origine di grandi dimensioni può terminare la copia iniziale o se è stata eseguita una copia iniziale offline, se si verificano problemi di rete e scritture/riscritture sul volume di origine, è possibile che non si raggiunga l'RPO e si perda la coerenza tra l'origine e la destinazione. 

Sintomi

  1. L'avanzamento della copia iniziale è bloccato, ad esempio "Initial Copy progress" mostrerà in modo permanente il 70%: 

 # scli --query_all_replication_pairs
Local Id: bf50999700000000 Remote Id: bad02d5600000000 Copy Type: ONLINE_COPY Initial Copy State: ACTIVE Name: Rep
Local Volume Id: 2236ff5400000001 Remote Volume Id: 831e94c40000000d Local Volume Name: vol_lir1 Remote Volume Name: vol_lir1
Initial Copy progress: 70%
query_all_replication_pairs returned 1 Replication Pairs.

2- Controllando le tracce SDR vengono identificati i seguenti errori: Problemi di rete

 27/02 13:39:11.051442 (nil):netCon_ExchangeNewCon_CK:03589: ERROR: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148, Can't send NEW_CON message
27/02 13:39:11.051454 (nil):netCon_ConnectToPeer_CK:03519: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148 rollback connect
27/02 13:39:11.092475 (nil):netCon_IsKaNeeded:04338: ERROR: CON 0x7f42a80fb660 failed to send for 180 iterations. Marking as down
.
.
.
27/02 13:39:12.628337 (nil):mapVolIO_ReportIOErrorIfNeeded:00469: Vol ID 0x21c5f4c600000032. Last vol network error status NOT_CONN(4) Reason (NOT_CONN) RC (NOT_CONN) Retry count (0) chan (0) Total IO millis (1010)
27/02 13:39:12.637268 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d59b17d8. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)
27/02 13:39:12.637288 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d5a46030. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)

Stato di copia iniziale, in cui i volumi di piccole dimensioni sono validi, ma quelli più grandi una volta che non sono in grado di essere completati.

 27/02 13:39:10.774502 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01871: (SDR_INITIAL_COPIER) Initial Copier - Got 2 SYSTEM_INITIAL_COPY CGs and 1 done VAEs
27/02 13:39:10.774520 0x7f42814f9db0:initialCopierCg_FillCgVaeDoneMsg:01963: (SDR_INITIAL_COPIER) Filled VAE Done MSG for Pair-Id de9ddcc900000001, GenNum: 2137, VaeId: 14
27/02 13:39:10.774633 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01921: (SDR_INITIAL_COPIER) Initial Copier - Total number of 1 VAEs will be reported as Done

3 - Controllando la connettività SDR, è possibile che alcune o tutte le connessioni da SDR a SDR siano disconnesse.

 scli --query_disconnection --print_all
peer_system ID: ff74bce300000000 Name: DR_PFlex_GW
SDR-SDR connectivity status: Multiple disconnections
SDR ID: 2d01669c00000000 Name: Sdr-172.24.194.137 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669d00000001 Name: Sdr-172.24.194.138 is disconnected from:
	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669e00000002 Name: Sdr-172.24.194.135 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669f00000003 Name: Sdr-172.24.194.136 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7

 

4 - Anche se tutta la connettività da SDR a SDR funziona correttamente, potrebbe verificarsi una possibile condizione con gli stessi sintomi di errore della copia iniziale se la capacità di rete è scarsa e la larghezza di banda non è sufficiente per completare correttamente la copia iniziale.

Per testare la larghezza di banda tra i due siti, è possibile utilizzare strumenti diversi, ad esempio "iperf":

Qualsiasi test della larghezza di banda potrebbe influire sulla rete tra i siti: se è presente l'utilizzo della WAN per la replica Site2Site, comunicare al cliente che questo test deve essere condotto in orari lavorativi ridotti e considerando che la rete per cui viene condotto il test non sarà utilizzabile per tutta la durata del test. 

Convalida di aver eseguito il test abbastanza a lungo da disporre di letture corrette, come il trasferimento di grandi volumi; tieni anche presente che questo test sollecita la rete dei clienti.

 Sito 1

 [root@112AX-7 ~]# iperf3 -s
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------
Accepted connection from 172.24.1.174, port 54882
[  5] local 172.24.1.173 port 5201 connected to 172.24.1.174 port 54886
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-1.00   sec  2.76 GBytes  23.7 Gbits/sec                  
[  5]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec                  
[  5]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   5.00-5.04   sec   114 MBytes  24.7 Gbits/sec                  
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-5.04   sec  0.00 Bytes  0.00 bits/sec                  sender
[  5]   0.00-5.04   sec  14.4 GBytes  24.5 Gbits/sec                  receiver
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------

Sito 2

 [root@112AX-8 ~]# iperf3 -c 172.24.1.173 -i 1 -t 5
Connecting to host 172.24.1.173, port 5201
[  4] local 172.24.1.174 port 54886 connected to 172.24.1.173 port 5201
[ ID] Interval           Transfer     Bandwidth       Retr  Cwnd
[  4]   0.00-1.00   sec  2.87 GBytes  24.7 Gbits/sec   12    734 KBytes       
[  4]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec    0    786 KBytes       
[  4]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec    0    804 KBytes       
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth       Retr
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec   12             sender
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec                  receiveriperf Done.

 

Impatto

La replica non è stabilita: il sito 1 non sarà coerente con il sito 2, se è presente la replica da un sito di produzione a un sito di DR, il sito di DR non può superare se è presente uno scenario di failover.

Cause

Verificare che il processo SDR sia avviato e stabile su entrambi i siti: in caso affermativo, la root cause generale è molto probabilmente correlata a problemi di rete tra il sito 1 e il sito 2, pertanto PowerFlex non è responsabile del problema di copia iniziale. Detto questo, la copia iniziale non funzionerà a meno che non vengano trattati i problemi di rete.

Il problema potrebbe essere uno dei seguenti:

  1. Configurazione errata degli IP SDR
  2. Nessuna route tra gli SDR nel sito 1 e gli SDR nel sito 2
  3. I ruoli IP SDR sono configurati in modo errato
  4. Verificare che il firewall convalidi che la porta 11088 non sia bloccata
  5. Configurazione MTU errata/non allineata tra i siti
  6. Qualsiasi altro problema di rete

Resolution

Soluzione alternativa

  1. Per convalidare la connettività tra gli SDR, eseguire scli --query_disconnection --print_all - verificare che non ci siano SDR disconnessi.
  2. Se tutti sono collegati, ma la copia iniziale continua a non riuscire, eseguire un test della larghezza di banda tra il sito 1 e il sito 2 come descritto in precedenza nell'esempio iperf

Se non sono stati rilevati problemi di rete e la connettività da SDR a SDR va bene, eseguire un test della larghezza di banda e, se il test restituisce un esito positivo ma la copia iniziale non viene completata, eseguire l'escalation del problema a PowerFlex L3.

Nota: Se la rete funziona correttamente, ma il volume di origine è di grandi dimensioni e la copia iniziale non viene completata, consultare il manuale dell'utente per l'opzione "copia iniziale offline".  

Versioni interessate

Tutte le versioni di PowerFlex che eseguono la replica

Risolto nella versione

Non è un problema correlato a PowerFlex

Érintett termékek

PowerFlex rack, ScaleIO
Termék tulajdonságai
Article Number: 000204785
Article Type: Solution
Utoljára módosítva: 21 okt. 2025
Version:  6
Választ kaphat kérdéseire más Dell-felhasználóktól
Támogatási szolgáltatások
Ellenőrizze, hogy a készüléke rendelkezik-e támogatási szolgáltatással.