PowerFlex 複寫 - 初始複本失敗
Summary: 初始複製進度停滯。 有時,小卷可能會成功達到 100% 完成,而大卷可能無法完成初始複製。
Symptoms
案例
如果源系統和目標系統之間存在網路問題或頻寬過低,則初始複製階段可能永遠不會完成。
可能的情況是,將為小型卷完成初始複製,但是在包含大型卷的複製一致性組 (RCG) 上,源卷和目標卷無法達到 100% 一致性,並且源日誌容量利用率隨著源卷收到新寫入而增加。
注意:即使大型來源磁碟區可以完成初始複製,或已完成離線初始複製,如果發生網路問題,並在來源磁碟區上寫入/重寫,我們可能無法達到 RPO,並失去來源和目標之間的一致性。
症狀
-
初始複製進度停滯,例如,「初始複製進度」會永久顯示 70%:
# scli --query_all_replication_pairs Local Id: bf50999700000000 Remote Id: bad02d5600000000 Copy Type: ONLINE_COPY Initial Copy State: ACTIVE Name: Rep Local Volume Id: 2236ff5400000001 Remote Volume Id: 831e94c40000000d Local Volume Name: vol_lir1 Remote Volume Name: vol_lir1 Initial Copy progress: 70% query_all_replication_pairs returned 1 Replication Pairs.
2- 檢查 SDR 追蹤,識別下一個錯誤:網路問題
27/02 13:39:11.051442 (nil):netCon_ExchangeNewCon_CK:03589: ERROR: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148, Can't send NEW_CON message 27/02 13:39:11.051454 (nil):netCon_ConnectToPeer_CK:03519: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148 rollback connect 27/02 13:39:11.092475 (nil):netCon_IsKaNeeded:04338: ERROR: CON 0x7f42a80fb660 failed to send for 180 iterations. Marking as down . . . 27/02 13:39:12.628337 (nil):mapVolIO_ReportIOErrorIfNeeded:00469: Vol ID 0x21c5f4c600000032. Last vol network error status NOT_CONN(4) Reason (NOT_CONN) RC (NOT_CONN) Retry count (0) chan (0) Total IO millis (1010) 27/02 13:39:12.637268 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d59b17d8. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4) 27/02 13:39:12.637288 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d5a46030. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)
初始拷貝狀態,小卷是可以的,但一次大卷無法完成。
27/02 13:39:10.774502 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01871: (SDR_INITIAL_COPIER) Initial Copier - Got 2 SYSTEM_INITIAL_COPY CGs and 1 done VAEs 27/02 13:39:10.774520 0x7f42814f9db0:initialCopierCg_FillCgVaeDoneMsg:01963: (SDR_INITIAL_COPIER) Filled VAE Done MSG for Pair-Id de9ddcc900000001, GenNum: 2137, VaeId: 14 27/02 13:39:10.774633 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01921: (SDR_INITIAL_COPIER) Initial Copier - Total number of 1 VAEs will be reported as Done
3- 檢查 SDR 連線,您可能會發現部分或全部 SDR 至 SDR 的連線已中斷連線。
scli --query_disconnection --print_all peer_system ID: ff74bce300000000 Name: DR_PFlex_GW SDR-SDR connectivity status: Multiple disconnections SDR ID: 2d01669c00000000 Name: Sdr-172.24.194.137 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669d00000001 Name: Sdr-172.24.194.138 is disconnected from: SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669e00000002 Name: Sdr-172.24.194.135 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669f00000003 Name: Sdr-172.24.194.136 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
4- 即使所有 SDR 至 SDR 的連線都正常,但如果網路容量不佳,且沒有足夠的頻寬成功完成初始複製,則可能發生具有相同初始複製失敗症狀的情況。
若要測試兩個網站之間的頻寬,您可以使用不同的工具,例如「iperf」:
任何頻寬測試都可能會影響網站之間的網路 - 如果 Site2Site 複製使用 WAN,請告知客戶此測試應在低工作時間進行,並考慮到測試所針對的網路在測試期間將無法使用。
驗證您運行測試的時間足夠長,以獲得正確的讀數 - 例如傳輸大量數據 - 另請注意,此測試會給客戶的網路帶來壓力。
網站1
[root@112AX-7 ~]# iperf3 -s ----------------------------------------------------------- Server listening on 5201 ----------------------------------------------------------- Accepted connection from 172.24.1.174, port 54882 [ 5] local 172.24.1.173 port 5201 connected to 172.24.1.174 port 54886 [ ID] Interval Transfer Bandwidth [ 5] 0.00-1.00 sec 2.76 GBytes 23.7 Gbits/sec [ 5] 1.00-2.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 2.00-3.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 3.00-4.00 sec 2.87 GBytes 24.7 Gbits/sec [ 5] 4.00-5.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 5.00-5.04 sec 114 MBytes 24.7 Gbits/sec - - - - - - - - - - - - - - - - - - - - - - - - - [ ID] Interval Transfer Bandwidth [ 5] 0.00-5.04 sec 0.00 Bytes 0.00 bits/sec sender [ 5] 0.00-5.04 sec 14.4 GBytes 24.5 Gbits/sec receiver ----------------------------------------------------------- Server listening on 5201 -----------------------------------------------------------
網站2
[root@112AX-8 ~]# iperf3 -c 172.24.1.173 -i 1 -t 5 Connecting to host 172.24.1.173, port 5201 [ 4] local 172.24.1.174 port 54886 connected to 172.24.1.173 port 5201 [ ID] Interval Transfer Bandwidth Retr Cwnd [ 4] 0.00-1.00 sec 2.87 GBytes 24.7 Gbits/sec 12 734 KBytes [ 4] 1.00-2.00 sec 2.88 GBytes 24.7 Gbits/sec 0 778 KBytes [ 4] 2.00-3.00 sec 2.88 GBytes 24.7 Gbits/sec 0 778 KBytes [ 4] 3.00-4.00 sec 2.87 GBytes 24.7 Gbits/sec 0 786 KBytes [ 4] 4.00-5.00 sec 2.88 GBytes 24.7 Gbits/sec 0 804 KBytes - - - - - - - - - - - - - - - - - - - - - - - - - [ ID] Interval Transfer Bandwidth Retr [ 4] 0.00-5.00 sec 14.4 GBytes 24.7 Gbits/sec 12 sender [ 4] 0.00-5.00 sec 14.4 GBytes 24.7 Gbits/sec receiveriperf Done.
影響
複製未建立 - 網站 1 與網站 2 不一致,如果從生產網站複製到災難恢復網站,則災難恢復網站在出現故障轉移情況時無法超越。
Cause
驗證 SDR 程序是否已在兩個網站上啟動並穩定 - 如果已啟動,則一般根本原因很可能與網站 1 和 site2 之間的網路問題有關,因此 PowerFlex 不負責初始複製問題。話雖如此,除非處理網路問題,否則初始副本將不起作用。
問題可能是下列其中一項:
- SDR IP 組態錯誤
- 網站 1 上的 SDR 和網站 2 上的 SDR 之間沒有路由
- SDR IP 角色設定錯誤
- 檢查防火牆是否驗證埠 11088 是否未被阻止
- 站點之間的 MTU 組態錯誤/未對齊
- 任何其他網路問題
Resolution
因應措施
- 若要驗證 SDR 之間的連線能力,請執行
scli --query_disconnection --print_all- 驗證沒有斷開連接的 SDR。 - 如果全部已連線,但初始複本仍然失敗,請在 site1 和 site2 之間執行頻寬測試,如上方 iperf 範例中所述。
如果找不到網路問題,且 SDR 至 SDR 的連線能力正常,請執行頻寬測試,如果測試傳回成功,但初始複本無法完成,請將問題呈報至 PowerFlex L3。
注意:如果網路正常,但來源磁碟區很大,且初始複製無法完成,請檢查使用者手冊是否有「離線初始複製」選項。
受影響的版本
執行複寫的所有 PowerFlex 版本
已修正問題的版本
不是 PowerFlex 相關問題