PowerFlex 複寫 - 初始複本失敗

Summary: 初始複製進度停滯。 有時,小卷可能會成功達到 100% 完成,而大卷可能無法完成初始複製。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

案例

如果源系統和目標系統之間存在網路問題或頻寬過低,則初始複製階段可能永遠不會完成。

可能的情況是,將為小型卷完成初始複製,但是在包含大型卷的複製一致性組 (RCG) 上,源卷和目標卷無法達到 100% 一致性,並且源日誌容量利用率隨著源卷收到新寫入而增加。

注意:即使大型來源磁碟區可以完成初始複製,或已完成離線初始複製,如果發生網路問題,並在來源磁碟區上寫入/重寫,我們可能無法達到 RPO,並失去來源和目標之間的一致性。 

症狀

  1. 初始複製進度停滯,例如,「初始複製進度」會永久顯示 70%: 

 # scli --query_all_replication_pairs
Local Id: bf50999700000000 Remote Id: bad02d5600000000 Copy Type: ONLINE_COPY Initial Copy State: ACTIVE Name: Rep
Local Volume Id: 2236ff5400000001 Remote Volume Id: 831e94c40000000d Local Volume Name: vol_lir1 Remote Volume Name: vol_lir1
Initial Copy progress: 70%
query_all_replication_pairs returned 1 Replication Pairs.

2- 檢查 SDR 追蹤,識別下一個錯誤:網路問題

 27/02 13:39:11.051442 (nil):netCon_ExchangeNewCon_CK:03589: ERROR: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148, Can't send NEW_CON message
27/02 13:39:11.051454 (nil):netCon_ConnectToPeer_CK:03519: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148 rollback connect
27/02 13:39:11.092475 (nil):netCon_IsKaNeeded:04338: ERROR: CON 0x7f42a80fb660 failed to send for 180 iterations. Marking as down
.
.
.
27/02 13:39:12.628337 (nil):mapVolIO_ReportIOErrorIfNeeded:00469: Vol ID 0x21c5f4c600000032. Last vol network error status NOT_CONN(4) Reason (NOT_CONN) RC (NOT_CONN) Retry count (0) chan (0) Total IO millis (1010)
27/02 13:39:12.637268 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d59b17d8. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)
27/02 13:39:12.637288 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d5a46030. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)

初始拷貝狀態,小卷是可以的,但一次大卷無法完成。

 27/02 13:39:10.774502 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01871: (SDR_INITIAL_COPIER) Initial Copier - Got 2 SYSTEM_INITIAL_COPY CGs and 1 done VAEs
27/02 13:39:10.774520 0x7f42814f9db0:initialCopierCg_FillCgVaeDoneMsg:01963: (SDR_INITIAL_COPIER) Filled VAE Done MSG for Pair-Id de9ddcc900000001, GenNum: 2137, VaeId: 14
27/02 13:39:10.774633 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01921: (SDR_INITIAL_COPIER) Initial Copier - Total number of 1 VAEs will be reported as Done

3- 檢查 SDR 連線,您可能會發現部分或全部 SDR 至 SDR 的連線已中斷連線。

 scli --query_disconnection --print_all
peer_system ID: ff74bce300000000 Name: DR_PFlex_GW
SDR-SDR connectivity status: Multiple disconnections
SDR ID: 2d01669c00000000 Name: Sdr-172.24.194.137 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669d00000001 Name: Sdr-172.24.194.138 is disconnected from:
	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669e00000002 Name: Sdr-172.24.194.135 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
SDR ID: 2d01669f00000003 Name: Sdr-172.24.194.136 is disconnected from:
	SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2	SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4	SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5	SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7

 

4- 即使所有 SDR 至 SDR 的連線都正常,但如果網路容量不佳,且沒有足夠的頻寬成功完成初始複製,則可能發生具有相同初始複製失敗症狀的情況。

若要測試兩個網站之間的頻寬,您可以使用不同的工具,例如「iperf」:

任何頻寬測試都可能會影響網站之間的網路 - 如果 Site2Site 複製使用 WAN,請告知客戶此測試應在低工作時間進行,並考慮到測試所針對的網路在測試期間將無法使用。 

驗證您運行測試的時間足夠長,以獲得正確的讀數 - 例如傳輸大量數據 - 另請注意,此測試會給客戶的網路帶來壓力。

 網站1

 [root@112AX-7 ~]# iperf3 -s
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------
Accepted connection from 172.24.1.174, port 54882
[  5] local 172.24.1.173 port 5201 connected to 172.24.1.174 port 54886
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-1.00   sec  2.76 GBytes  23.7 Gbits/sec                  
[  5]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec                  
[  5]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec                  
[  5]   5.00-5.04   sec   114 MBytes  24.7 Gbits/sec                  
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-5.04   sec  0.00 Bytes  0.00 bits/sec                  sender
[  5]   0.00-5.04   sec  14.4 GBytes  24.5 Gbits/sec                  receiver
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------

網站2

 [root@112AX-8 ~]# iperf3 -c 172.24.1.173 -i 1 -t 5
Connecting to host 172.24.1.173, port 5201
[  4] local 172.24.1.174 port 54886 connected to 172.24.1.173 port 5201
[ ID] Interval           Transfer     Bandwidth       Retr  Cwnd
[  4]   0.00-1.00   sec  2.87 GBytes  24.7 Gbits/sec   12    734 KBytes       
[  4]   1.00-2.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   2.00-3.00   sec  2.88 GBytes  24.7 Gbits/sec    0    778 KBytes       
[  4]   3.00-4.00   sec  2.87 GBytes  24.7 Gbits/sec    0    786 KBytes       
[  4]   4.00-5.00   sec  2.88 GBytes  24.7 Gbits/sec    0    804 KBytes       
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth       Retr
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec   12             sender
[  4]   0.00-5.00   sec  14.4 GBytes  24.7 Gbits/sec                  receiveriperf Done.

 

影響

複製未建立 - 網站 1 與網站 2 不一致,如果從生產網站複製到災難恢復網站,則災難恢復網站在出現故障轉移情況時無法超越。

Cause

驗證 SDR 程序是否已在兩個網站上啟動並穩定 - 如果已啟動,則一般根本原因很可能與網站 1 和 site2 之間的網路問題有關,因此 PowerFlex 不負責初始複製問題。話雖如此,除非處理網路問題,否則初始副本將不起作用。

問題可能是下列其中一項:

  1. SDR IP 組態錯誤
  2. 網站 1 上的 SDR 和網站 2 上的 SDR 之間沒有路由
  3. SDR IP 角色設定錯誤
  4. 檢查防火牆是否驗證埠 11088 是否未被阻止
  5. 站點之間的 MTU 組態錯誤/未對齊
  6. 任何其他網路問題

Resolution

因應措施

  1. 若要驗證 SDR 之間的連線能力,請執行 scli --query_disconnection --print_all - 驗證沒有斷開連接的 SDR。
  2. 如果全部已連線,但初始複本仍然失敗,請在 site1 和 site2 之間執行頻寬測試,如上方 iperf 範例中所述。 

如果找不到網路問題,且 SDR 至 SDR 的連線能力正常,請執行頻寬測試,如果測試傳回成功,但初始複本無法完成,請將問題呈報至 PowerFlex L3。

注意:如果網路正常,但來源磁碟區很大,且初始複製無法完成,請檢查使用者手冊是否有「離線初始複製」選項。  

受影響的版本

執行複寫的所有 PowerFlex 版本

已修正問題的版本

不是 PowerFlex 相關問題

Affected Products

PowerFlex rack, ScaleIO
Article Properties
Article Number: 000204785
Article Type: Solution
Last Modified: 21 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.