PowerFlex-Replikation – Fehler beim ersten Kopiervorgang

Summary: Der anfängliche Kopiervorgang bleibt hängen. Manchmal gelingt es möglicherweise, dass kleine Volumes zu 100 % abgeschlossen werden, während bei großen Volumes die Erstkopie nicht abgeschlossen werden konnte. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Beispiel

Wenn es Netzwerkprobleme oder geringe Bandbreite zwischen den Quell- und Zielsystemen gibt, wird die erste Kopierphase möglicherweise nie abgeschlossen.

Ein mögliches Szenario ist, dass die Erstkopie für kleine Volumes abgeschlossen wird, auf Replikationskonsistenzgruppen (RCGs), die große Volumes enthalten, die Quell- und Ziel-Volumes jedoch nicht in der Lage sind, eine Konsistenz von 100 % zu erreichen, und die Kapazitätsauslastung des Quelljournals steigt, wenn neue Schreibvorgänge vom Quellvolume empfangen werden.

Hinweis: Selbst wenn das große Quell-Volume die Erstkopie abschließen kann oder wenn eine Offline-Erstkopie erstellt wurde, wenn Netzwerkprobleme auftreten und Schreibvorgänge/Neuschreibungen auf dem Quell-Volume durchgeführt werden, wird das RPO möglicherweise nicht erfüllt und die Konsistenz zwischen Quelle und Ziel verloren. 

Problem

  1. Der anfängliche Kopierfortschritt bleibt hängen, z. B. zeigt der "Fortschritt der Erstkopie" dauerhaft 70 % an: 

 # scli --query_all_replication_pairs
Local Id: bf50999700000000 Remote Id: bad02d5600000000 Copy Type: ONLINE_COPY Initial Copy State: ACTIVE Name: Rep
Local Volume Id: 2236ff5400000001 Remote Volume Id: 831e94c40000000d Local Volume Name: vol_lir1 Remote Volume Name: vol_lir1
Initial Copy progress: 70%
query_all_replication_pairs returned 1 Replication Pairs.

2. Beim Überprüfen der SDR-Ablaufverfolgungen werden die folgenden Fehler identifiziert: Netzwerkprobleme

 27/02 13:39:11.051442 (nil):netCon_ExchangeNewCon_CK:03589: ERROR: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148, Can't send NEW_CON message
27/02 13:39:11.051454 (nil):netCon_ConnectToPeer_CK:03519: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148 rollback connect
27/02 13:39:11.092475 (nil):netCon_IsKaNeeded:04338: ERROR: CON 0x7f42a80fb660 failed to send for 180 iterations. Marking as down
.
.
.
27/02 13:39:12.628337 (nil):mapVolIO_ReportIOErrorIfNeeded:00469: Vol ID 0x21c5f4c600000032. Last vol network error status NOT_CONN(4) Reason (NOT_CONN) RC (NOT_CONN) Retry count (0) chan (0) Total IO millis (1010)
27/02 13:39:12.637268 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d59b17d8. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)
27/02 13:39:12.637288 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d5a46030. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)

Status der Erstkopie, wobei kleine Volumes in Ordnung sind, aber größere einmal nicht abgeschlossen werden können.

 27/02 13:39:10.774502 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01871: (SDR_INITIAL_COPIER) Initial Copier - Got 2 SYSTEM_INITIAL_COPY CGs and 1 done VAEs
27/02 13:39:10.774520 0x7f42814f9db0:initialCopierCg_FillCgVaeDoneMsg:01963: (SDR_INITIAL_COPIER) Filled VAE Done MSG for Pair-Id de9ddcc900000001, GenNum: 2137, VaeId: 14
27/02 13:39:10.774633 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01921: (SDR_INITIAL_COPIER) Initial Copier - Total number of 1 VAEs will be reported as Done

3. Beim Überprüfen der SDR-Konnektivität werden möglicherweise einige oder alle SDR-zu-SDR-Verbindungen als getrennt angezeigt.

 scli --query_disconnection --print_all
peer_system ID: ff74bce300000000 Name: DR_PFlex_GW
SDR-SDR connectivity status: Multiple disconnections
SDR ID: 2d01669c00000000 Name: Sdr-172.24.194.137 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669d00000001 Name: Sdr-172.24.194.138 is disconnected from:
	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669e00000002 Name: Sdr-172.24.194.135 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669f00000003 Name: Sdr-172.24.194.136 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7

 

4 – Selbst wenn alle SDR-zu-SDR-Konnektivität in Ordnung ist, kann eine mögliche Bedingung mit denselben Symptomen eines Fehlers bei der Erstkopie auftreten, wenn die Netzwerkkapazität schlecht ist und nicht genügend Bandbreite vorhanden ist, um die Erstkopie erfolgreich abzuschließen.

Um die Bandbreite zwischen den beiden Standorten zu testen, können Sie verschiedene Tools verwenden, z. B. "iperf":

Jeder Test der Bandbreite kann sich auf das Netzwerk zwischen den Standorten auswirken. Wenn es eine WAN-Nutzung für die Site2Site-Replikation gibt, informieren Sie den Kunden, dass dieser Test während der Geschäftszeiten durchgeführt werden sollte und berücksichtigen, dass das Netzwerk, für das der Test durchgeführt wird, während der Dauer des Tests nicht nutzbar ist. 

Stellen Sie sicher, dass Sie den Test lange genug ausführen, um korrekte Messwerte zu erhalten – z. B. das Übertragen großer Volumes. Beachten Sie auch, dass dieser Test das Kundennetzwerk belastet.

 Standort 1

 [root@112AX-7 ~]# iperf3 -s
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------
Accepted connection from 172.24.1.174, port 54882
[  5] local 172.24.1.173 port 5201 connected to 172.24.1.174 port 54886
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-1.00   sec  2.76 GBytes  23.7 Gbits/sec                  
[  5]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec                  
[  5]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   5.00-5.04   sec   114 MBytes  24.7 Gbits/sec                  
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-5.04   sec  0.00 Bytes  0.00 bits/sec                  sender
[  5]   0.00-5.04   sec  14.4 GBytes  24.5 Gbits/sec                  receiver
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------

Standort 2

 [root@112AX-8 ~]# iperf3 -c 172.24.1.173 -i 1 -t 5
Connecting to host 172.24.1.173, port 5201
[  4] local 172.24.1.174 port 54886 connected to 172.24.1.173 port 5201
[ ID] Interval           Transfer     Bandwidth       Retr  Cwnd
[  4]   0.00-1.00   sec  2.87 GBytes  24.7 Gbits/sec   12    734 KBytes       
[  4]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec    0    786 KBytes       
[  4]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec    0    804 KBytes       
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth       Retr
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec   12             sender
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec                  receiveriperf Done.

 

Auswirkungen

Die Replikation wurde nicht eingerichtet – Standort 1 ist nicht konsistent mit Standort 2. Wenn eine Replikation von einem Produktions- zum Disaster-Recovery-Standort erfolgt, kann der Disaster-Recovery-Standort im Falle eines Failover-Szenarios nicht übernehmen.

Cause

Überprüfen Sie, ob der SDR-Prozess an beiden Standorten gestartet wurde und stabil ist. Wenn dies der Fall ist, hängt die allgemeine Ursache höchstwahrscheinlich mit Netzwerkproblemen zwischen Standort 1 und Standort 2 zusammen. Daher ist PowerFlex nicht für das Problem mit der anfänglichen Kopie verantwortlich. Allerdings funktioniert die erste Kopie nur, wenn die Netzwerkprobleme behandelt werden.

Das Problem kann eines der folgenden sein:

  1. Falsche Konfiguration der SDR-IPs
  2. Keine Route zwischen SDRs an Standort 1 und SDRs an Standort 2
  3. SDR-IP-Rollen sind falsch konfiguriert
  4. Überprüfen Sie, ob die Firewall sicherstellt, dass Port 11088 nicht blockiert ist.
  5. Falsche/nicht ausgerichtete MTU-Konfiguration zwischen den Standorten
  6. Alle anderen Netzwerkprobleme

Resolution

Problemumgehung

  1. Führen Sie zum Validieren der Konnektivität zwischen SDRs Folgendes aus: scli --query_disconnection --print_all - Überprüfen Sie, ob keine getrennten SDRs vorhanden sind.
  2. Wenn alle verbunden sind, die Erstkopie jedoch immer noch fehlschlägt, führen Sie einen Bandbreitentest zwischen Standort 1 und Standort 2 durch, wie oben im Beispiel iperf beschrieben. 

Wenn keine Netzwerkprobleme gefunden werden und die SDR-zu-SDR-Konnektivität in Ordnung ist, führen Sie einen Bandbreitentest durch. Wenn der Test erfolgreich ist und die Erstkopie dennoch nicht abgeschlossen werden kann, eskalieren Sie das Problem an PowerFlex L3.

Hinweis: Wenn das Netzwerk in Ordnung ist, aber das Quell-Volume groß ist und die Erstkopie nicht abgeschlossen werden kann, finden Sie im Benutzerhandbuch die Option "Offline-Erstkopie".  

Betroffene Versionen

Alle PowerFlex-Versionen mit Replikation

Behoben in Version

Kein PowerFlex-bezogenes Problem

Affected Products

PowerFlex rack, ScaleIO
Article Properties
Article Number: 000204785
Article Type: Solution
Last Modified: 21 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.