Replica PowerFlex - Errore di copia iniziale
Summary: L'avanzamento della copia iniziale è bloccato. A volte, potrebbe riuscire a raggiungere il completamento del 100% per piccoli volumi, mentre grandi volumi non sono riusciti a completare la copia iniziale. ...
Symptoms
Scenario
In caso di problemi di rete o di larghezza di banda ridotta tra i sistemi di origine e di destinazione, la fase di copia iniziale potrebbe non essere mai completata.
Uno scenario possibile è che la copia iniziale venga completata per volumi di piccole dimensioni, tuttavia nei consistency group di replica (RCG) che contengono volumi di grandi dimensioni, i volumi di origine e di destinazione non sono in grado di raggiungere il 100% di coerenza e l'utilizzo della capacità del journal di origine aumenta man mano che il volume di origine riceve nuove scritture.
Nota: Anche se il volume di origine di grandi dimensioni può terminare la copia iniziale o se è stata eseguita una copia iniziale offline, se si verificano problemi di rete e scritture/riscritture sul volume di origine, è possibile che non si raggiunga l'RPO e si perda la coerenza tra l'origine e la destinazione.
Sintomi
-
L'avanzamento della copia iniziale è bloccato, ad esempio "Initial Copy progress" mostrerà in modo permanente il 70%:
# scli --query_all_replication_pairs Local Id: bf50999700000000 Remote Id: bad02d5600000000 Copy Type: ONLINE_COPY Initial Copy State: ACTIVE Name: Rep Local Volume Id: 2236ff5400000001 Remote Volume Id: 831e94c40000000d Local Volume Name: vol_lir1 Remote Volume Name: vol_lir1 Initial Copy progress: 70% query_all_replication_pairs returned 1 Replication Pairs.
2- Controllando le tracce SDR vengono identificati i seguenti errori: Problemi di rete
27/02 13:39:11.051442 (nil):netCon_ExchangeNewCon_CK:03589: ERROR: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148, Can't send NEW_CON message 27/02 13:39:11.051454 (nil):netCon_ConnectToPeer_CK:03519: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148 rollback connect 27/02 13:39:11.092475 (nil):netCon_IsKaNeeded:04338: ERROR: CON 0x7f42a80fb660 failed to send for 180 iterations. Marking as down . . . 27/02 13:39:12.628337 (nil):mapVolIO_ReportIOErrorIfNeeded:00469: Vol ID 0x21c5f4c600000032. Last vol network error status NOT_CONN(4) Reason (NOT_CONN) RC (NOT_CONN) Retry count (0) chan (0) Total IO millis (1010) 27/02 13:39:12.637268 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d59b17d8. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4) 27/02 13:39:12.637288 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d5a46030. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)
Stato di copia iniziale, in cui i volumi di piccole dimensioni sono validi, ma quelli più grandi una volta che non sono in grado di essere completati.
27/02 13:39:10.774502 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01871: (SDR_INITIAL_COPIER) Initial Copier - Got 2 SYSTEM_INITIAL_COPY CGs and 1 done VAEs 27/02 13:39:10.774520 0x7f42814f9db0:initialCopierCg_FillCgVaeDoneMsg:01963: (SDR_INITIAL_COPIER) Filled VAE Done MSG for Pair-Id de9ddcc900000001, GenNum: 2137, VaeId: 14 27/02 13:39:10.774633 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01921: (SDR_INITIAL_COPIER) Initial Copier - Total number of 1 VAEs will be reported as Done
3 - Controllando la connettività SDR, è possibile che alcune o tutte le connessioni da SDR a SDR siano disconnesse.
scli --query_disconnection --print_all peer_system ID: ff74bce300000000 Name: DR_PFlex_GW SDR-SDR connectivity status: Multiple disconnections SDR ID: 2d01669c00000000 Name: Sdr-172.24.194.137 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669d00000001 Name: Sdr-172.24.194.138 is disconnected from: SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669e00000002 Name: Sdr-172.24.194.135 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669f00000003 Name: Sdr-172.24.194.136 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
4 - Anche se tutta la connettività da SDR a SDR funziona correttamente, potrebbe verificarsi una possibile condizione con gli stessi sintomi di errore della copia iniziale se la capacità di rete è scarsa e la larghezza di banda non è sufficiente per completare correttamente la copia iniziale.
Per testare la larghezza di banda tra i due siti, è possibile utilizzare strumenti diversi, ad esempio "iperf":
Qualsiasi test della larghezza di banda potrebbe influire sulla rete tra i siti: se è presente l'utilizzo della WAN per la replica Site2Site, comunicare al cliente che questo test deve essere condotto in orari lavorativi ridotti e considerando che la rete per cui viene condotto il test non sarà utilizzabile per tutta la durata del test.
Convalida di aver eseguito il test abbastanza a lungo da disporre di letture corrette, come il trasferimento di grandi volumi; tieni anche presente che questo test sollecita la rete dei clienti.
Sito 1
[root@112AX-7 ~]# iperf3 -s ----------------------------------------------------------- Server listening on 5201 ----------------------------------------------------------- Accepted connection from 172.24.1.174, port 54882 [ 5] local 172.24.1.173 port 5201 connected to 172.24.1.174 port 54886 [ ID] Interval Transfer Bandwidth [ 5] 0.00-1.00 sec 2.76 GBytes 23.7 Gbits/sec [ 5] 1.00-2.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 2.00-3.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 3.00-4.00 sec 2.87 GBytes 24.7 Gbits/sec [ 5] 4.00-5.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 5.00-5.04 sec 114 MBytes 24.7 Gbits/sec - - - - - - - - - - - - - - - - - - - - - - - - - [ ID] Interval Transfer Bandwidth [ 5] 0.00-5.04 sec 0.00 Bytes 0.00 bits/sec sender [ 5] 0.00-5.04 sec 14.4 GBytes 24.5 Gbits/sec receiver ----------------------------------------------------------- Server listening on 5201 -----------------------------------------------------------
Sito 2
[root@112AX-8 ~]# iperf3 -c 172.24.1.173 -i 1 -t 5 Connecting to host 172.24.1.173, port 5201 [ 4] local 172.24.1.174 port 54886 connected to 172.24.1.173 port 5201 [ ID] Interval Transfer Bandwidth Retr Cwnd [ 4] 0.00-1.00 sec 2.87 GBytes 24.7 Gbits/sec 12 734 KBytes [ 4] 1.00-2.00 sec 2.88 GBytes 24.7 Gbits/sec 0 778 KBytes [ 4] 2.00-3.00 sec 2.88 GBytes 24.7 Gbits/sec 0 778 KBytes [ 4] 3.00-4.00 sec 2.87 GBytes 24.7 Gbits/sec 0 786 KBytes [ 4] 4.00-5.00 sec 2.88 GBytes 24.7 Gbits/sec 0 804 KBytes - - - - - - - - - - - - - - - - - - - - - - - - - [ ID] Interval Transfer Bandwidth Retr [ 4] 0.00-5.00 sec 14.4 GBytes 24.7 Gbits/sec 12 sender [ 4] 0.00-5.00 sec 14.4 GBytes 24.7 Gbits/sec receiveriperf Done.
Impatto
La replica non è stabilita: il sito 1 non sarà coerente con il sito 2, se è presente la replica da un sito di produzione a un sito di DR, il sito di DR non può superare se è presente uno scenario di failover.
Cause
Verificare che il processo SDR sia avviato e stabile su entrambi i siti: in caso affermativo, la root cause generale è molto probabilmente correlata a problemi di rete tra il sito 1 e il sito 2, pertanto PowerFlex non è responsabile del problema di copia iniziale. Detto questo, la copia iniziale non funzionerà a meno che non vengano trattati i problemi di rete.
Il problema potrebbe essere uno dei seguenti:
- Configurazione errata degli IP SDR
- Nessuna route tra gli SDR nel sito 1 e gli SDR nel sito 2
- I ruoli IP SDR sono configurati in modo errato
- Verificare che il firewall convalidi che la porta 11088 non sia bloccata
- Configurazione MTU errata/non allineata tra i siti
- Qualsiasi altro problema di rete
Resolution
Soluzione alternativa
- Per convalidare la connettività tra gli SDR, eseguire
scli --query_disconnection --print_all- verificare che non ci siano SDR disconnessi. - Se tutti sono collegati, ma la copia iniziale continua a non riuscire, eseguire un test della larghezza di banda tra il sito 1 e il sito 2 come descritto in precedenza nell'esempio iperf.
Se non sono stati rilevati problemi di rete e la connettività da SDR a SDR va bene, eseguire un test della larghezza di banda e, se il test restituisce un esito positivo ma la copia iniziale non viene completata, eseguire l'escalation del problema a PowerFlex L3.
Nota: Se la rete funziona correttamente, ma il volume di origine è di grandi dimensioni e la copia iniziale non viene completata, consultare il manuale dell'utente per l'opzione "copia iniziale offline".
Versioni interessate
Tutte le versioni di PowerFlex che eseguono la replica
Risolto nella versione
Non è un problema correlato a PowerFlex