Replicação do PowerFlex - falha na cópia inicial

Summary: O andamento da cópia inicial está travado. Às vezes, ele pode conseguir atingir 100% de conclusão para volumes pequenos, enquanto grandes volumes falham ao concluir a cópia inicial.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Situação

Se houver problemas de rede ou pouca largura de banda entre os sistemas de origem e de destino, a fase de cópia inicial pode nunca ser concluída.

Um cenário possível é que a cópia inicial seja concluída para volumes pequenos, no entanto, em RCGs (Replication Consistency Groups, grupos de consistência de replicação) que contêm grandes volumes, os volumes de origem e destino não conseguem atingir 100% de consistência, e a utilização da capacidade de registro de origem está aumentando à medida que novas gravações são recebidas pelo volume de origem.

Nota: Mesmo que o grande volume de origem possa concluir a cópia inicial, ou se uma cópia inicial off-line tiver sido feita, se houver problemas de rede e gravações/regravações no volume de origem, podemos não cumprir o RPO e perder a consistência entre a origem e o destino. 

Sintomas

  1. O andamento da cópia inicial travou, por exemplo, o "Initial Copy progress" mostrará permanentemente 70%: 

 # scli --query_all_replication_pairs
Local Id: bf50999700000000 Remote Id: bad02d5600000000 Copy Type: ONLINE_COPY Initial Copy State: ACTIVE Name: Rep
Local Volume Id: 2236ff5400000001 Remote Volume Id: 831e94c40000000d Local Volume Name: vol_lir1 Remote Volume Name: vol_lir1
Initial Copy progress: 70%
query_all_replication_pairs returned 1 Replication Pairs.

2. Verificando os rastreamentos do SDR, os seguintes erros são identificados: Problemas de rede

 27/02 13:39:11.051442 (nil):netCon_ExchangeNewCon_CK:03589: ERROR: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148, Can't send NEW_CON message
27/02 13:39:11.051454 (nil):netCon_ConnectToPeer_CK:03519: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148 rollback connect
27/02 13:39:11.092475 (nil):netCon_IsKaNeeded:04338: ERROR: CON 0x7f42a80fb660 failed to send for 180 iterations. Marking as down
.
.
.
27/02 13:39:12.628337 (nil):mapVolIO_ReportIOErrorIfNeeded:00469: Vol ID 0x21c5f4c600000032. Last vol network error status NOT_CONN(4) Reason (NOT_CONN) RC (NOT_CONN) Retry count (0) chan (0) Total IO millis (1010)
27/02 13:39:12.637268 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d59b17d8. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)
27/02 13:39:12.637288 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d5a46030. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)

Estado de cópia inicial, em que volumes pequenos são OK, mas maiores uma vez, não conseguem concluir.

 27/02 13:39:10.774502 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01871: (SDR_INITIAL_COPIER) Initial Copier - Got 2 SYSTEM_INITIAL_COPY CGs and 1 done VAEs
27/02 13:39:10.774520 0x7f42814f9db0:initialCopierCg_FillCgVaeDoneMsg:01963: (SDR_INITIAL_COPIER) Filled VAE Done MSG for Pair-Id de9ddcc900000001, GenNum: 2137, VaeId: 14
27/02 13:39:10.774633 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01921: (SDR_INITIAL_COPIER) Initial Copier - Total number of 1 VAEs will be reported as Done

3. Verificando a conectividade SDR, você poderá ver algumas ou todas as conexões SDR para SDR como desconectadas.

 scli --query_disconnection --print_all
peer_system ID: ff74bce300000000 Name: DR_PFlex_GW
SDR-SDR connectivity status: Multiple disconnections
SDR ID: 2d01669c00000000 Name: Sdr-172.24.194.137 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669d00000001 Name: Sdr-172.24.194.138 is disconnected from:
	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669e00000002 Name: Sdr-172.24.194.135 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669f00000003 Name: Sdr-172.24.194.136 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7

 

4. Mesmo que toda a conectividade SDR para SDR esteja funcionando corretamente, uma possível condição com os mesmos sintomas de falha na cópia inicial poderá ocorrer se a capacidade da rede for baixa e não houver largura de banda suficiente para concluir com êxito a cópia inicial.

Para testar a largura de banda entre os dois sites, você pode usar ferramentas diferentes, por exemplo, "iperf":

Qualquer teste de largura de banda pode afetar a rede entre os locais. Se houver uso de WAN para replicação do local 2, informe ao cliente que esse teste deve ser realizado durante o horário comercial baixo, considerando-se que a rede para a qual o teste foi realizado não poderá ser usada durante o teste. 

Valide que você executou o teste por tempo suficiente para ter leituras adequadas, como a transferência de grandes volumes. Observe também que esse teste enfatiza a rede dos clientes.

 Sítio1

 [root@112AX-7 ~]# iperf3 -s
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------
Accepted connection from 172.24.1.174, port 54882
[  5] local 172.24.1.173 port 5201 connected to 172.24.1.174 port 54886
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-1.00   sec  2.76 GBytes  23.7 Gbits/sec                  
[  5]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec                  
[  5]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   5.00-5.04   sec   114 MBytes  24.7 Gbits/sec                  
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-5.04   sec  0.00 Bytes  0.00 bits/sec                  sender
[  5]   0.00-5.04   sec  14.4 GBytes  24.5 Gbits/sec                  receiver
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------

Sítio 2

 [root@112AX-8 ~]# iperf3 -c 172.24.1.173 -i 1 -t 5
Connecting to host 172.24.1.173, port 5201
[  4] local 172.24.1.174 port 54886 connected to 172.24.1.173 port 5201
[ ID] Interval           Transfer     Bandwidth       Retr  Cwnd
[  4]   0.00-1.00   sec  2.87 GBytes  24.7 Gbits/sec   12    734 KBytes       
[  4]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec    0    786 KBytes       
[  4]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec    0    804 KBytes       
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth       Retr
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec   12             sender
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec                  receiveriperf Done.

 

Impacto

A replicação não está estabelecida - o local 1 não será consistente com o local 2. Se houver replicação de um local de produção para DR, o local de DR não poderá ultrapassar se houver um cenário de failover.

Cause

Confirme se o processo de SDR foi iniciado e está estável em ambos os locais. Se acontecer, a causa raiz geral provavelmente está relacionada a problemas de rede entre o local 1 e o local 2. Portanto, o PowerFlex não é responsável pelo problema de cópia inicial. Dito isso, a cópia inicial não funcionará a menos que os problemas de rede sejam tratados.

O problema pode ser um dos seguintes:

  1. Configuração incorreta dos IPs SDR
  2. Não há rota entre os SDRs no local1 e os SDRs no local2
  3. As funções de IP do SDR estão configuradas incorretamente
  4. Verifique se o firewall valida que a porta 11088 não está bloqueada
  5. Configuração de MTU incorreta/não alinhada entre os locais
  6. Qualquer outro problema de rede

Resolution

Solução temporária

  1. Para validar a conectividade entre SDRs, execute scli --query_disconnection --print_all - validar que não há SDRs desconectados.
  2. Se todos estiverem conectados, mas a cópia inicial ainda falhar, execute um teste de largura de banda entre o local 1 e o local 2, conforme descrito acima no exemplo do iperf

Se não forem encontrados problemas de rede e a conectividade SDR para SDR estiver funcionando corretamente, realize um teste de largura de banda e, se o teste retornar com sucesso e mesmo assim a cópia inicial não for concluída, encaminhe o problema para o PowerFlex L3.

Nota: Se a rede estiver funcionando corretamente, mas o volume de origem for grande e a cópia inicial não for concluída, verifique no manual do usuário a opção "cópia inicial off-line".  

Versões afetadas

Todas as versões do PowerFlex executando replicação

Correção feita na versão

Não é um problema relacionado ao PowerFlex

Affected Products

PowerFlex rack, ScaleIO
Article Properties
Article Number: 000204785
Article Type: Solution
Last Modified: 21 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.