Réplication PowerFlex - Échec de la copie initiale

Summary: La progression de la copie initiale est bloquée. Parfois, il peut réussir à atteindre un achèvement de 100 % pour les petits volumes, tandis que les grands volumes n’ont pas pu terminer la copie initiale. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Scénario

En cas de problèmes réseau ou de faible bande passante entre le système source et le système cible, l’étape de copie initiale peut ne jamais se terminer.

Dans un scénario possible, la copie initiale sera terminée pour les volumes de petite taille, mais sur les groupes de cohérence de réplication (RCG) qui contiennent des volumes volumineux, les volumes source et cible ne sont pas en mesure d’atteindre une cohérence de 100 % et l’utilisation de la capacité du journal source augmente à mesure que de nouvelles écritures sont reçues par le volume source.

Remarque : Même si le volume source volumineux peut terminer la copie initiale, ou si une copie initiale hors ligne a été effectuée, en cas de problèmes de réseau et d’écritures/réécritures sur le volume source, nous risquons de ne pas respecter le RPO et de perdre la cohérence entre la source et la cible. 

Symptômes

  1. La progression de la copie initiale est bloquée. Par exemple, la « Initial Copy progress » affiche en permanence 70 % : 

 # scli --query_all_replication_pairs
Local Id: bf50999700000000 Remote Id: bad02d5600000000 Copy Type: ONLINE_COPY Initial Copy State: ACTIVE Name: Rep
Local Volume Id: 2236ff5400000001 Remote Volume Id: 831e94c40000000d Local Volume Name: vol_lir1 Remote Volume Name: vol_lir1
Initial Copy progress: 70%
query_all_replication_pairs returned 1 Replication Pairs.

2- En vérifiant les traces SDR, les erreurs suivantes sont identifiées : Problèmes de réseau

 27/02 13:39:11.051442 (nil):netCon_ExchangeNewCon_CK:03589: ERROR: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148, Can't send NEW_CON message
27/02 13:39:11.051454 (nil):netCon_ConnectToPeer_CK:03519: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148 rollback connect
27/02 13:39:11.092475 (nil):netCon_IsKaNeeded:04338: ERROR: CON 0x7f42a80fb660 failed to send for 180 iterations. Marking as down
.
.
.
27/02 13:39:12.628337 (nil):mapVolIO_ReportIOErrorIfNeeded:00469: Vol ID 0x21c5f4c600000032. Last vol network error status NOT_CONN(4) Reason (NOT_CONN) RC (NOT_CONN) Retry count (0) chan (0) Total IO millis (1010)
27/02 13:39:12.637268 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d59b17d8. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)
27/02 13:39:12.637288 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d5a46030. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)

État de la copie initiale, où les petits volumes sont acceptables, mais les volumes plus importants une fois ne peuvent pas être terminés.

 27/02 13:39:10.774502 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01871: (SDR_INITIAL_COPIER) Initial Copier - Got 2 SYSTEM_INITIAL_COPY CGs and 1 done VAEs
27/02 13:39:10.774520 0x7f42814f9db0:initialCopierCg_FillCgVaeDoneMsg:01963: (SDR_INITIAL_COPIER) Filled VAE Done MSG for Pair-Id de9ddcc900000001, GenNum: 2137, VaeId: 14
27/02 13:39:10.774633 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01921: (SDR_INITIAL_COPIER) Initial Copier - Total number of 1 VAEs will be reported as Done

3- Lors de la vérification de la connectivité SDR, vous pouvez voir une partie ou la totalité des connexions SDR à SDR comme déconnectées.

 scli --query_disconnection --print_all
peer_system ID: ff74bce300000000 Name: DR_PFlex_GW
SDR-SDR connectivity status: Multiple disconnections
SDR ID: 2d01669c00000000 Name: Sdr-172.24.194.137 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669d00000001 Name: Sdr-172.24.194.138 is disconnected from:
	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669e00000002 Name: Sdr-172.24.194.135 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669f00000003 Name: Sdr-172.24.194.136 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7

 

4- Même si toutes les connexions SDR à SDR fonctionnent correctement, une condition pouvant présenter les mêmes symptômes d’échec de copie initiale peut se produire si la capacité réseau est faible et qu’il n’y a pas suffisamment de bande passante pour terminer la copie initiale.

Pour tester la bande passante entre les deux sites, vous pouvez utiliser différents outils, par exemple « iperf » :

Tout test de bande passante peut avoir un impact sur le réseau entre les sites. En cas d’utilisation du réseau WAN pour la réplication Site2Site, informez le client que ce test doit être effectué pendant les heures de faible ouverture et compte tenu du fait que le réseau pour lequel le test est effectué ne sera pas utilisable pendant la durée du test. 

Vérifiez que vous exécutez le test suffisamment longtemps pour obtenir des résultats corrects, comme le transfert de gros volumes. Notez également que ce test sollicite fortement le réseau des clients.

 Site 1 (en anglais)

 [root@112AX-7 ~]# iperf3 -s
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------
Accepted connection from 172.24.1.174, port 54882
[  5] local 172.24.1.173 port 5201 connected to 172.24.1.174 port 54886
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-1.00   sec  2.76 GBytes  23.7 Gbits/sec                  
[  5]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec                  
[  5]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   5.00-5.04   sec   114 MBytes  24.7 Gbits/sec                  
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-5.04   sec  0.00 Bytes  0.00 bits/sec                  sender
[  5]   0.00-5.04   sec  14.4 GBytes  24.5 Gbits/sec                  receiver
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------

Site 2 (en anglais)

 [root@112AX-8 ~]# iperf3 -c 172.24.1.173 -i 1 -t 5
Connecting to host 172.24.1.173, port 5201
[  4] local 172.24.1.174 port 54886 connected to 172.24.1.173 port 5201
[ ID] Interval           Transfer     Bandwidth       Retr  Cwnd
[  4]   0.00-1.00   sec  2.87 GBytes  24.7 Gbits/sec   12    734 KBytes       
[  4]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec    0    786 KBytes       
[  4]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec    0    804 KBytes       
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth       Retr
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec   12             sender
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec                  receiveriperf Done.

 

Impact

La réplication n’est pas établie : site1 ne sera pas cohérent avec site2, s’il existe une réplication d’un site de production vers un site de reprise après sinistre, le site de reprise après sinistre ne peut pas dépasser s’il existe un scénario de basculement.

Cause

Vérifiez que le processus SDR est démarré et stable sur les deux sites. Si c’est le cas, la cause première générale est probablement liée à des problèmes réseau entre le site 1 et le site 2. Par conséquent, PowerFlex n’est pas responsable du problème de copie initiale. Cela dit, la copie initiale ne fonctionnera pas tant que les problèmes de réseau ne seront pas résolus.

Le problème peut être l’un des suivants :

  1. Configuration incorrecte des adresses IP SDR
  2. Aucun itinéraire entre les SDR sur site1 et les SDR sur site2
  3. Les rôles IP SDR sont mal configurés
  4. Vérifiez que le pare-feu valide que le port 11088 n’est pas bloqué
  5. Configuration MTU incorrecte/non alignée entre les sites
  6. Tout autre problème réseau

Resolution

Solution

  1. Pour valider la connectivité entre les SDR, exécutez scli --query_disconnection --print_all - Vérifiez qu’il n’y a pas de SDR déconnectés.
  2. Si tous sont connectés, mais que la copie initiale échoue toujours, effectuez un test de bande passante entre site1 et site2, comme décrit ci-dessus dans l’exemple iperf

Si aucun problème réseau n’est détecté et que la connectivité SDR à SDR fonctionne correctement, effectuez un test de bande passante et, si le test réussit, mais que la copie initiale échoue, escaladez le problème à PowerFlex L3.

Remarque : Si le réseau est en bon état, mais que le volume source est volumineux et que la copie initiale ne parvient pas à se terminer, consultez le manuel d’utilisation pour une option de « copie initiale hors ligne ».  

Versions affectées

Toutes les versions de PowerFlex exécutant la réplication

Problème résolu dans la version

N’est pas un problème lié à PowerFlex

Affected Products

PowerFlex rack, ScaleIO
Article Properties
Article Number: 000204785
Article Type: Solution
Last Modified: 21 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.