Replicación de PowerFlex: falla de copia inicial

Summary: El progreso de la copia inicial está bloqueado. A veces, puede alcanzar el 100 % de finalización para volúmenes pequeños, mientras que volúmenes grandes no pueden completar la copia inicial. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Situación

Si hay problemas de red o ancho de banda bajo entre los sistemas de origen y destino, es posible que la etapa de copia inicial nunca finalice.

Un posible escenario es que la copia inicial se complete para volúmenes pequeños; sin embargo, en los grupos de coherencia de replicación (RCG) que contienen grandes volúmenes, los volúmenes de origen y destino no pueden alcanzar una coherencia del 100 %, y la utilización de la capacidad del registro de origen aumenta a medida que el volumen de origen recibe nuevas escrituras.

Nota: Incluso si el volumen de origen grande puede terminar la copia inicial, o si se realizó una copia inicial offline, si hay problemas de red y las escrituras/reescrituras en el volumen de origen, es posible que no se cumpla con el RPO y se pierda coherencia entre el origen y el destino. 

Síntomas

  1. El progreso de la copia inicial se bloquea; por ejemplo, el "progreso de la copia inicial" mostrará permanentemente un 70 %: 

 # scli --query_all_replication_pairs
Local Id: bf50999700000000 Remote Id: bad02d5600000000 Copy Type: ONLINE_COPY Initial Copy State: ACTIVE Name: Rep
Local Volume Id: 2236ff5400000001 Remote Volume Id: 831e94c40000000d Local Volume Name: vol_lir1 Remote Volume Name: vol_lir1
Initial Copy progress: 70%
query_all_replication_pairs returned 1 Replication Pairs.

2- Comprobación de las trazas del SDR se identifican los siguientes errores: Problemas de red

 27/02 13:39:11.051442 (nil):netCon_ExchangeNewCon_CK:03589: ERROR: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148, Can't send NEW_CON message
27/02 13:39:11.051454 (nil):netCon_ConnectToPeer_CK:03519: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148 rollback connect
27/02 13:39:11.092475 (nil):netCon_IsKaNeeded:04338: ERROR: CON 0x7f42a80fb660 failed to send for 180 iterations. Marking as down
.
.
.
27/02 13:39:12.628337 (nil):mapVolIO_ReportIOErrorIfNeeded:00469: Vol ID 0x21c5f4c600000032. Last vol network error status NOT_CONN(4) Reason (NOT_CONN) RC (NOT_CONN) Retry count (0) chan (0) Total IO millis (1010)
27/02 13:39:12.637268 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d59b17d8. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)
27/02 13:39:12.637288 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d5a46030. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)

Estado de copia inicial, donde los volúmenes pequeños son correctos, pero los más grandes una vez no pueden finalizar.

 27/02 13:39:10.774502 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01871: (SDR_INITIAL_COPIER) Initial Copier - Got 2 SYSTEM_INITIAL_COPY CGs and 1 done VAEs
27/02 13:39:10.774520 0x7f42814f9db0:initialCopierCg_FillCgVaeDoneMsg:01963: (SDR_INITIAL_COPIER) Filled VAE Done MSG for Pair-Id de9ddcc900000001, GenNum: 2137, VaeId: 14
27/02 13:39:10.774633 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01921: (SDR_INITIAL_COPIER) Initial Copier - Total number of 1 VAEs will be reported as Done

3- Al comprobar la conectividad de SDR, es posible que vea algunas o todas las conexiones de SDR a SDR como desconectadas.

 scli --query_disconnection --print_all
peer_system ID: ff74bce300000000 Name: DR_PFlex_GW
SDR-SDR connectivity status: Multiple disconnections
SDR ID: 2d01669c00000000 Name: Sdr-172.24.194.137 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669d00000001 Name: Sdr-172.24.194.138 is disconnected from:
	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669e00000002 Name: Sdr-172.24.194.135 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669f00000003 Name: Sdr-172.24.194.136 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7

 

4. Incluso si toda la conectividad de SDR a SDR está bien, es posible que se produzca una condición con los mismos síntomas de falla de copia inicial si la capacidad de red es deficiente y no hay suficiente ancho de banda para finalizar correctamente la copia inicial.

Para probar el ancho de banda entre los dos sitios, puede usar diferentes herramientas, por ejemplo, "iperf":

Cualquier prueba de ancho de banda podría afectar la red entre los sitios. Si hay uso de WAN para la replicación de Site2Site, informe al cliente que esta prueba debe realizarse durante el horario comercial bajo y teniendo en cuenta que la red para la que se realiza la prueba no se podrá utilizar durante la duración de la prueba. 

Valide que ejecuta la prueba el tiempo suficiente para tener lecturas adecuadas, como la transferencia de grandes volúmenes. También tenga en cuenta que esta prueba sobrecarga la red de los clientes.

 Sitio 1

 [root@112AX-7 ~]# iperf3 -s
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------
Accepted connection from 172.24.1.174, port 54882
[  5] local 172.24.1.173 port 5201 connected to 172.24.1.174 port 54886
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-1.00   sec  2.76 GBytes  23.7 Gbits/sec                  
[  5]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec                  
[  5]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   5.00-5.04   sec   114 MBytes  24.7 Gbits/sec                  
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-5.04   sec  0.00 Bytes  0.00 bits/sec                  sender
[  5]   0.00-5.04   sec  14.4 GBytes  24.5 Gbits/sec                  receiver
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------

Sitio 2

 [root@112AX-8 ~]# iperf3 -c 172.24.1.173 -i 1 -t 5
Connecting to host 172.24.1.173, port 5201
[  4] local 172.24.1.174 port 54886 connected to 172.24.1.173 port 5201
[ ID] Interval           Transfer     Bandwidth       Retr  Cwnd
[  4]   0.00-1.00   sec  2.87 GBytes  24.7 Gbits/sec   12    734 KBytes       
[  4]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec    0    786 KBytes       
[  4]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec    0    804 KBytes       
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth       Retr
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec   12             sender
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec                  receiveriperf Done.

 

Impacto

La replicación no está establecida: el sitio 1 no será coherente con el sitio 2. Si hay replicación de un sitio de producción a un sitio de recuperación ante desastres, el sitio de recuperación ante desastres no puede superar si hay un escenario de conmutación por error.

Cause

Valide que el proceso de SDR se haya iniciado y esté estable en ambos sitios. Si es así, es muy probable que la causa raíz general esté relacionada con problemas de red entre el sitio 1 y el sitio 2, por lo que PowerFlex no es responsable del problema de copia inicial. Dicho esto, la copia inicial no funcionará a menos que se traten los problemas de red.

El problema podría ser uno de los siguientes:

  1. Configuración incorrecta de las IP de SDR
  2. No hay ruta entre los SDR en el sitio1 y los SDR en el sitio2
  3. Las funciones IP de SDR están configuradas erróneamente
  4. Compruebe que el firewall valide que el puerto 11088 no esté bloqueado
  5. Configuración de MTU incorrecta/desalineada entre los sitios
  6. Cualquier otro problema de red

Resolution

Solución alternativa

  1. Para validar la conectividad entre los SDR, ejecute scli --query_disconnection --print_all - Valide que no haya SDR desconectados.
  2. Si todos están conectados, pero la copia inicial aún falla, realice una prueba de ancho de banda entre el sitio 1 y el sitio 2, como se describió anteriormente en el ejemplo de iperf

Si no se encuentran problemas de red y la conectividad entre SDR es adecuada, realice una prueba de ancho de banda y, si la prueba resulta exitosa, pero la copia inicial no se completa, escale el problema a PowerFlex L3.

Nota: Si la red funciona correctamente, pero el volumen de origen es grande y la copia inicial no se completa, consulte el manual del usuario para ver si hay una opción de "copia inicial offline".  

Versiones afectadas

Todas las versiones de PowerFlex que ejecutan replicación

Problema corregido en la versión

No es un problema relacionado con PowerFlex

Affected Products

PowerFlex rack, ScaleIO
Article Properties
Article Number: 000204785
Article Type: Solution
Last Modified: 21 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.