Replicação do PowerFlex - falha na cópia inicial
Summary: O andamento da cópia inicial está travado. Às vezes, ele pode conseguir atingir 100% de conclusão para volumes pequenos, enquanto grandes volumes falham ao concluir a cópia inicial.
Symptoms
Situação
Se houver problemas de rede ou pouca largura de banda entre os sistemas de origem e de destino, a fase de cópia inicial pode nunca ser concluída.
Um cenário possível é que a cópia inicial seja concluída para volumes pequenos, no entanto, em RCGs (Replication Consistency Groups, grupos de consistência de replicação) que contêm grandes volumes, os volumes de origem e destino não conseguem atingir 100% de consistência, e a utilização da capacidade de registro de origem está aumentando à medida que novas gravações são recebidas pelo volume de origem.
Nota: Mesmo que o grande volume de origem possa concluir a cópia inicial, ou se uma cópia inicial off-line tiver sido feita, se houver problemas de rede e gravações/regravações no volume de origem, podemos não cumprir o RPO e perder a consistência entre a origem e o destino.
Sintomas
-
O andamento da cópia inicial travou, por exemplo, o "Initial Copy progress" mostrará permanentemente 70%:
# scli --query_all_replication_pairs Local Id: bf50999700000000 Remote Id: bad02d5600000000 Copy Type: ONLINE_COPY Initial Copy State: ACTIVE Name: Rep Local Volume Id: 2236ff5400000001 Remote Volume Id: 831e94c40000000d Local Volume Name: vol_lir1 Remote Volume Name: vol_lir1 Initial Copy progress: 70% query_all_replication_pairs returned 1 Replication Pairs.
2. Verificando os rastreamentos do SDR, os seguintes erros são identificados: Problemas de rede
27/02 13:39:11.051442 (nil):netCon_ExchangeNewCon_CK:03589: ERROR: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148, Can't send NEW_CON message 27/02 13:39:11.051454 (nil):netCon_ConnectToPeer_CK:03519: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148 rollback connect 27/02 13:39:11.092475 (nil):netCon_IsKaNeeded:04338: ERROR: CON 0x7f42a80fb660 failed to send for 180 iterations. Marking as down . . . 27/02 13:39:12.628337 (nil):mapVolIO_ReportIOErrorIfNeeded:00469: Vol ID 0x21c5f4c600000032. Last vol network error status NOT_CONN(4) Reason (NOT_CONN) RC (NOT_CONN) Retry count (0) chan (0) Total IO millis (1010) 27/02 13:39:12.637268 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d59b17d8. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4) 27/02 13:39:12.637288 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d5a46030. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)
Estado de cópia inicial, em que volumes pequenos são OK, mas maiores uma vez, não conseguem concluir.
27/02 13:39:10.774502 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01871: (SDR_INITIAL_COPIER) Initial Copier - Got 2 SYSTEM_INITIAL_COPY CGs and 1 done VAEs 27/02 13:39:10.774520 0x7f42814f9db0:initialCopierCg_FillCgVaeDoneMsg:01963: (SDR_INITIAL_COPIER) Filled VAE Done MSG for Pair-Id de9ddcc900000001, GenNum: 2137, VaeId: 14 27/02 13:39:10.774633 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01921: (SDR_INITIAL_COPIER) Initial Copier - Total number of 1 VAEs will be reported as Done
3. Verificando a conectividade SDR, você poderá ver algumas ou todas as conexões SDR para SDR como desconectadas.
scli --query_disconnection --print_all peer_system ID: ff74bce300000000 Name: DR_PFlex_GW SDR-SDR connectivity status: Multiple disconnections SDR ID: 2d01669c00000000 Name: Sdr-172.24.194.137 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669d00000001 Name: Sdr-172.24.194.138 is disconnected from: SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669e00000002 Name: Sdr-172.24.194.135 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669f00000003 Name: Sdr-172.24.194.136 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
4. Mesmo que toda a conectividade SDR para SDR esteja funcionando corretamente, uma possível condição com os mesmos sintomas de falha na cópia inicial poderá ocorrer se a capacidade da rede for baixa e não houver largura de banda suficiente para concluir com êxito a cópia inicial.
Para testar a largura de banda entre os dois sites, você pode usar ferramentas diferentes, por exemplo, "iperf":
Qualquer teste de largura de banda pode afetar a rede entre os locais. Se houver uso de WAN para replicação do local 2, informe ao cliente que esse teste deve ser realizado durante o horário comercial baixo, considerando-se que a rede para a qual o teste foi realizado não poderá ser usada durante o teste.
Valide que você executou o teste por tempo suficiente para ter leituras adequadas, como a transferência de grandes volumes. Observe também que esse teste enfatiza a rede dos clientes.
Sítio1
[root@112AX-7 ~]# iperf3 -s ----------------------------------------------------------- Server listening on 5201 ----------------------------------------------------------- Accepted connection from 172.24.1.174, port 54882 [ 5] local 172.24.1.173 port 5201 connected to 172.24.1.174 port 54886 [ ID] Interval Transfer Bandwidth [ 5] 0.00-1.00 sec 2.76 GBytes 23.7 Gbits/sec [ 5] 1.00-2.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 2.00-3.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 3.00-4.00 sec 2.87 GBytes 24.7 Gbits/sec [ 5] 4.00-5.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 5.00-5.04 sec 114 MBytes 24.7 Gbits/sec - - - - - - - - - - - - - - - - - - - - - - - - - [ ID] Interval Transfer Bandwidth [ 5] 0.00-5.04 sec 0.00 Bytes 0.00 bits/sec sender [ 5] 0.00-5.04 sec 14.4 GBytes 24.5 Gbits/sec receiver ----------------------------------------------------------- Server listening on 5201 -----------------------------------------------------------
Sítio 2
[root@112AX-8 ~]# iperf3 -c 172.24.1.173 -i 1 -t 5 Connecting to host 172.24.1.173, port 5201 [ 4] local 172.24.1.174 port 54886 connected to 172.24.1.173 port 5201 [ ID] Interval Transfer Bandwidth Retr Cwnd [ 4] 0.00-1.00 sec 2.87 GBytes 24.7 Gbits/sec 12 734 KBytes [ 4] 1.00-2.00 sec 2.88 GBytes 24.7 Gbits/sec 0 778 KBytes [ 4] 2.00-3.00 sec 2.88 GBytes 24.7 Gbits/sec 0 778 KBytes [ 4] 3.00-4.00 sec 2.87 GBytes 24.7 Gbits/sec 0 786 KBytes [ 4] 4.00-5.00 sec 2.88 GBytes 24.7 Gbits/sec 0 804 KBytes - - - - - - - - - - - - - - - - - - - - - - - - - [ ID] Interval Transfer Bandwidth Retr [ 4] 0.00-5.00 sec 14.4 GBytes 24.7 Gbits/sec 12 sender [ 4] 0.00-5.00 sec 14.4 GBytes 24.7 Gbits/sec receiveriperf Done.
Impacto
A replicação não está estabelecida - o local 1 não será consistente com o local 2. Se houver replicação de um local de produção para DR, o local de DR não poderá ultrapassar se houver um cenário de failover.
Cause
Confirme se o processo de SDR foi iniciado e está estável em ambos os locais. Se acontecer, a causa raiz geral provavelmente está relacionada a problemas de rede entre o local 1 e o local 2. Portanto, o PowerFlex não é responsável pelo problema de cópia inicial. Dito isso, a cópia inicial não funcionará a menos que os problemas de rede sejam tratados.
O problema pode ser um dos seguintes:
- Configuração incorreta dos IPs SDR
- Não há rota entre os SDRs no local1 e os SDRs no local2
- As funções de IP do SDR estão configuradas incorretamente
- Verifique se o firewall valida que a porta 11088 não está bloqueada
- Configuração de MTU incorreta/não alinhada entre os locais
- Qualquer outro problema de rede
Resolution
Solução temporária
- Para validar a conectividade entre SDRs, execute
scli --query_disconnection --print_all- validar que não há SDRs desconectados. - Se todos estiverem conectados, mas a cópia inicial ainda falhar, execute um teste de largura de banda entre o local 1 e o local 2, conforme descrito acima no exemplo do iperf.
Se não forem encontrados problemas de rede e a conectividade SDR para SDR estiver funcionando corretamente, realize um teste de largura de banda e, se o teste retornar com sucesso e mesmo assim a cópia inicial não for concluída, encaminhe o problema para o PowerFlex L3.
Nota: Se a rede estiver funcionando corretamente, mas o volume de origem for grande e a cópia inicial não for concluída, verifique no manual do usuário a opção "cópia inicial off-line".
Versões afetadas
Todas as versões do PowerFlex executando replicação
Correção feita na versão
Não é um problema relacionado ao PowerFlex