PowerFlex Çoğaltma - İlk Kopyalama Hatası
Summary: İlk kopyalama ilerlemesi takılı kaldı. Bazen, küçük birimler için %100 tamamlanma oranına ulaşmayı başarabilirken, büyük birimler ilk kopyalamayı tamamlayamayabilir.
Symptoms
Senaryo
Kaynak ve hedef sistemler arasında ağ sorunları veya düşük bant genişliği varsa ilk kopyalama aşaması hiçbir zaman tamamlanmayabilir.
Olası bir senaryo, ilk kopyalamanın küçük boyutlu birimler için tamamlanmasıdır, ancak büyük birimler içeren Çoğaltma Tutarlılık Gruplarında (RCG'ler) kaynak ve hedef birimler %100 tutarlılığa erişemez ve kaynak birim tarafından yeni yazmalar alındıkça kaynak günlük kapasite kullanımı artar.
Not: Büyük kaynak disk bölümü ilk kopyalamayı tamamlayabilse veya çevrimdışı bir ilk kopyalama yapılmış olsa bile, kaynak disk bölümünde ağ sorunları ve yazma/yeniden yazma işlemleri varsa RPO ile karşılaşamayabilir ve kaynak ile hedef arasındaki tutarlılığı kaybedebiliriz.
Belirtiler
-
İlk kopyalama ilerlemesi takılı kaldı. Örneğin, "İlk Kopyalama ilerlemesi" kalıcı olarak %70 olarak gösterilir:
# scli --query_all_replication_pairs Local Id: bf50999700000000 Remote Id: bad02d5600000000 Copy Type: ONLINE_COPY Initial Copy State: ACTIVE Name: Rep Local Volume Id: 2236ff5400000001 Remote Volume Id: 831e94c40000000d Local Volume Name: vol_lir1 Remote Volume Name: vol_lir1 Initial Copy progress: 70% query_all_replication_pairs returned 1 Replication Pairs.
2- SDR izlerini kontrol ederken aşağıdaki hatalar belirlenir: Ağ sorunları
27/02 13:39:11.051442 (nil):netCon_ExchangeNewCon_CK:03589: ERROR: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148, Can't send NEW_CON message 27/02 13:39:11.051454 (nil):netCon_ConnectToPeer_CK:03519: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148 rollback connect 27/02 13:39:11.092475 (nil):netCon_IsKaNeeded:04338: ERROR: CON 0x7f42a80fb660 failed to send for 180 iterations. Marking as down . . . 27/02 13:39:12.628337 (nil):mapVolIO_ReportIOErrorIfNeeded:00469: Vol ID 0x21c5f4c600000032. Last vol network error status NOT_CONN(4) Reason (NOT_CONN) RC (NOT_CONN) Retry count (0) chan (0) Total IO millis (1010) 27/02 13:39:12.637268 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d59b17d8. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4) 27/02 13:39:12.637288 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d5a46030. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)
Küçük birimlerin iyi durumda olduğu, ancak bir kez daha büyük birimlerin tamamlanamadığı ilk kopyalama durumu.
27/02 13:39:10.774502 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01871: (SDR_INITIAL_COPIER) Initial Copier - Got 2 SYSTEM_INITIAL_COPY CGs and 1 done VAEs 27/02 13:39:10.774520 0x7f42814f9db0:initialCopierCg_FillCgVaeDoneMsg:01963: (SDR_INITIAL_COPIER) Filled VAE Done MSG for Pair-Id de9ddcc900000001, GenNum: 2137, VaeId: 14 27/02 13:39:10.774633 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01921: (SDR_INITIAL_COPIER) Initial Copier - Total number of 1 VAEs will be reported as Done
3- SDR bağlantısını kontrol ederken, SDR ile SDR arasındaki bağlantıların bir kısmını veya tamamını bağlantı kesildi olarak görebilirsiniz.
scli --query_disconnection --print_all peer_system ID: ff74bce300000000 Name: DR_PFlex_GW SDR-SDR connectivity status: Multiple disconnections SDR ID: 2d01669c00000000 Name: Sdr-172.24.194.137 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669d00000001 Name: Sdr-172.24.194.138 is disconnected from: SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669e00000002 Name: Sdr-172.24.194.135 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669f00000003 Name: Sdr-172.24.194.136 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
4- Tüm SDR'den SDR'ye bağlantı sorunsuz olsa bile, ağ kapasitesi zayıfsa ve ilk kopyalamayı başarıyla tamamlamak için yeterli bant genişliği yoksa aynı ilk kopyalama hatası belirtilerini gösteren olası bir durum ortaya çıkabilir.
İki site arasındaki bant genişliğini test etmek için farklı araçlar kullanabilirsiniz - örneğin, "iperf":
Herhangi bir bant genişliği testi, siteler arasındaki ağı etkileyebilir - Site2Site çoğaltması için WAN kullanımı varsa, müşteriye bu testin düşük çalışma saatlerinde yapılması gerektiğini ve testin yapıldığı ağın test süresince kullanılamayacağını göz önünde bulundurun.
Testi, büyük hacimlerin aktarılması gibi uygun okumalar elde edecek kadar uzun süre çalıştırdığınızı doğrulayın, ayrıca bu testin müşterilerin ağını zorladığını unutmayın.
Site1
[root@112AX-7 ~]# iperf3 -s ----------------------------------------------------------- Server listening on 5201 ----------------------------------------------------------- Accepted connection from 172.24.1.174, port 54882 [ 5] local 172.24.1.173 port 5201 connected to 172.24.1.174 port 54886 [ ID] Interval Transfer Bandwidth [ 5] 0.00-1.00 sec 2.76 GBytes 23.7 Gbits/sec [ 5] 1.00-2.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 2.00-3.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 3.00-4.00 sec 2.87 GBytes 24.7 Gbits/sec [ 5] 4.00-5.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 5.00-5.04 sec 114 MBytes 24.7 Gbits/sec - - - - - - - - - - - - - - - - - - - - - - - - - [ ID] Interval Transfer Bandwidth [ 5] 0.00-5.04 sec 0.00 Bytes 0.00 bits/sec sender [ 5] 0.00-5.04 sec 14.4 GBytes 24.5 Gbits/sec receiver ----------------------------------------------------------- Server listening on 5201 -----------------------------------------------------------
Site2
[root@112AX-8 ~]# iperf3 -c 172.24.1.173 -i 1 -t 5 Connecting to host 172.24.1.173, port 5201 [ 4] local 172.24.1.174 port 54886 connected to 172.24.1.173 port 5201 [ ID] Interval Transfer Bandwidth Retr Cwnd [ 4] 0.00-1.00 sec 2.87 GBytes 24.7 Gbits/sec 12 734 KBytes [ 4] 1.00-2.00 sec 2.88 GBytes 24.7 Gbits/sec 0 778 KBytes [ 4] 2.00-3.00 sec 2.88 GBytes 24.7 Gbits/sec 0 778 KBytes [ 4] 3.00-4.00 sec 2.87 GBytes 24.7 Gbits/sec 0 786 KBytes [ 4] 4.00-5.00 sec 2.88 GBytes 24.7 Gbits/sec 0 804 KBytes - - - - - - - - - - - - - - - - - - - - - - - - - [ ID] Interval Transfer Bandwidth Retr [ 4] 0.00-5.00 sec 14.4 GBytes 24.7 Gbits/sec 12 sender [ 4] 0.00-5.00 sec 14.4 GBytes 24.7 Gbits/sec receiveriperf Done.
Etki
Çoğaltma kurulmadı: Üretim sitesinden DR sitesine çoğaltma varsa site1, site2 ile tutarlı olmaz. Bir yük devretme senaryosu varsa DR sitesi geçiş yapamaz.
Cause
SDR işleminin her iki sitede de başlatıldığını ve kararlı olduğunu doğrulayın. Çalışıyorsa bunun genel temel nedeni büyük olasılıkla site1 ve site2 arasındaki ağ sorunlarıyla ilgilidir; dolayısıyla ilk kopyalama sorunundan PowerFlex sorumlu değildir. Bununla birlikte, ağ sorunları giderilmedikçe ilk kopya çalışmayacaktır.
Sorun aşağıdakilerden biri olabilir:
- SDR IP'lerinin yanlış yapılandırılması
- Saha1'deki SDR'ler ile saha2'deki SDR'ler arasında rota yok
- SDR IP rolleri yanlış yapılandırılmış
- Güvenlik duvarının Bağlantı Noktası 11088'in engellenmediğini doğruladığından emin olun
- Siteler arasında yanlış/hizalanmamış MTU yapılandırması
- Başka herhangi bir ağ sorunu
Resolution
Geçici Çözüm
- SDR'ler arasındaki bağlantıyı doğrulamak için şunu çalıştırın:
scli --query_disconnection --print_all- Bağlantısı kesilmiş SDR olmadığını doğrulayın. - Hepsi bağlıysa ancak ilk kopyalama yine de başarısız oluyorsa, lütfen yukarıda iperf örneğinde açıklandığı gibi site1 ve site2 arasında bir bant genişliği testi gerçekleştirin.
Ağ sorunu bulunmazsa ve SDR'den SDR'ye bağlantı sorunsuzsa bir bant genişliği testi gerçekleştirin, test başarılı çıkmasına rağmen ilk kopyalama tamamlanamazsa sorunu PowerFlex L3'e iletin.
Not: Ağ iyi durumda ancak kaynak disk bölümü büyükse ve ilk kopyalama tamamlanamazsa, "çevrimdışı ilk kopyalama" seçeneği için kullanıcı kılavuzunu kontrol edin.
Etkilenen Sürümler
Çoğaltma çalıştıran tüm PowerFlex sürümleri
Düzeltildiği Sürüm
PowerFlex ile ilgili bir sorun değil