PowerFlex 复制 — 初始复制失败
Summary: 初始复制进度卡住。 有时,小卷可能会成功达到 100% 完成,而大卷无法完成初始拷贝。
Symptoms
情况说明
如果源系统与目标系统之间存在网络问题或带宽不足,则初始拷贝阶段可能永远无法完成。
一种可能的情况是,将完成小型卷的初始拷贝,但在包含大型卷的复制一致性组 (RCG) 上,源卷和目标卷无法达到 100% 的一致性,并且随着源卷接收新写入,源日志容量利用率会增加。
提醒:即使大型源卷可以完成初始拷贝,或者已完成离线初始拷贝,但如果存在网络问题,并且源卷上发生了写入/重写,我们可能无法满足 RPO,并且源和目标卷之间会失去一致性。
症状
-
初始拷贝进度停滞,例如,“初始拷贝进度”将显示永久 70%:
# scli --query_all_replication_pairs Local Id: bf50999700000000 Remote Id: bad02d5600000000 Copy Type: ONLINE_COPY Initial Copy State: ACTIVE Name: Rep Local Volume Id: 2236ff5400000001 Remote Volume Id: 831e94c40000000d Local Volume Name: vol_lir1 Remote Volume Name: vol_lir1 Initial Copy progress: 70% query_all_replication_pairs returned 1 Replication Pairs.
2- 检查 SDR 跟踪,识别下一个错误:网络问题
27/02 13:39:11.051442 (nil):netCon_ExchangeNewCon_CK:03589: ERROR: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148, Can't send NEW_CON message 27/02 13:39:11.051454 (nil):netCon_ConnectToPeer_CK:03519: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148 rollback connect 27/02 13:39:11.092475 (nil):netCon_IsKaNeeded:04338: ERROR: CON 0x7f42a80fb660 failed to send for 180 iterations. Marking as down . . . 27/02 13:39:12.628337 (nil):mapVolIO_ReportIOErrorIfNeeded:00469: Vol ID 0x21c5f4c600000032. Last vol network error status NOT_CONN(4) Reason (NOT_CONN) RC (NOT_CONN) Retry count (0) chan (0) Total IO millis (1010) 27/02 13:39:12.637268 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d59b17d8. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4) 27/02 13:39:12.637288 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d5a46030. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)
初始拷贝状态,其中小型卷正常,但较大的卷一次无法完成。
27/02 13:39:10.774502 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01871: (SDR_INITIAL_COPIER) Initial Copier - Got 2 SYSTEM_INITIAL_COPY CGs and 1 done VAEs 27/02 13:39:10.774520 0x7f42814f9db0:initialCopierCg_FillCgVaeDoneMsg:01963: (SDR_INITIAL_COPIER) Filled VAE Done MSG for Pair-Id de9ddcc900000001, GenNum: 2137, VaeId: 14 27/02 13:39:10.774633 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01921: (SDR_INITIAL_COPIER) Initial Copier - Total number of 1 VAEs will be reported as Done
3- 检查 SDR 连接,您可能会看到部分或全部 SDR 到 SDR 的连接已断开连接。
scli --query_disconnection --print_all peer_system ID: ff74bce300000000 Name: DR_PFlex_GW SDR-SDR connectivity status: Multiple disconnections SDR ID: 2d01669c00000000 Name: Sdr-172.24.194.137 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669d00000001 Name: Sdr-172.24.194.138 is disconnected from: SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669e00000002 Name: Sdr-172.24.194.135 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669f00000003 Name: Sdr-172.24.194.136 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
4- 即使所有 SDR 到 SDR 的连接都正常,如果网络容量较差且没有足够的带宽来成功完成初始复制,则可能会出现具有相同初始复制失败症状的情况。
要测试两个站点之间的带宽,您可以使用不同的工具 - 例如,“iperf”:
任何带宽测试都可能会影响站点之间的网络 - 如果 Site2Site 复制有 WAN 使用情况,请告知客户,此测试应在低工作时间进行,并考虑到执行测试的网络在测试期间不可用。
验证您运行测试的时间足够长以获得正确的读数(例如传输大量卷),另请注意,此测试会给客户的网络带来压力。
站点 1
[root@112AX-7 ~]# iperf3 -s ----------------------------------------------------------- Server listening on 5201 ----------------------------------------------------------- Accepted connection from 172.24.1.174, port 54882 [ 5] local 172.24.1.173 port 5201 connected to 172.24.1.174 port 54886 [ ID] Interval Transfer Bandwidth [ 5] 0.00-1.00 sec 2.76 GBytes 23.7 Gbits/sec [ 5] 1.00-2.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 2.00-3.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 3.00-4.00 sec 2.87 GBytes 24.7 Gbits/sec [ 5] 4.00-5.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 5.00-5.04 sec 114 MBytes 24.7 Gbits/sec - - - - - - - - - - - - - - - - - - - - - - - - - [ ID] Interval Transfer Bandwidth [ 5] 0.00-5.04 sec 0.00 Bytes 0.00 bits/sec sender [ 5] 0.00-5.04 sec 14.4 GBytes 24.5 Gbits/sec receiver ----------------------------------------------------------- Server listening on 5201 -----------------------------------------------------------
站点 2
[root@112AX-8 ~]# iperf3 -c 172.24.1.173 -i 1 -t 5 Connecting to host 172.24.1.173, port 5201 [ 4] local 172.24.1.174 port 54886 connected to 172.24.1.173 port 5201 [ ID] Interval Transfer Bandwidth Retr Cwnd [ 4] 0.00-1.00 sec 2.87 GBytes 24.7 Gbits/sec 12 734 KBytes [ 4] 1.00-2.00 sec 2.88 GBytes 24.7 Gbits/sec 0 778 KBytes [ 4] 2.00-3.00 sec 2.88 GBytes 24.7 Gbits/sec 0 778 KBytes [ 4] 3.00-4.00 sec 2.87 GBytes 24.7 Gbits/sec 0 786 KBytes [ 4] 4.00-5.00 sec 2.88 GBytes 24.7 Gbits/sec 0 804 KBytes - - - - - - - - - - - - - - - - - - - - - - - - - [ ID] Interval Transfer Bandwidth Retr [ 4] 0.00-5.00 sec 14.4 GBytes 24.7 Gbits/sec 12 sender [ 4] 0.00-5.00 sec 14.4 GBytes 24.7 Gbits/sec receiveriperf Done.
影响
未建立复制 — 站点 1 将与站点 2 不一致,如果存在从生产站点到 DR 站点的复制,则 DR 站点在发生故障切换情形时无法超车。
Cause
验证 SDR 进程是否已在两个站点上启动且稳定 — 如果已启动,则一般根本原因很可能与站点 1 和站点 2 之间的网络问题相关,因此 PowerFlex 不负责初始拷贝问题。话虽如此,除非处理网络问题,否则初始副本将不起作用。
问题可能是以下原因之一:
- SDR IP 配置错误
- 站点 1 上的 SDR 与站点 2 上的 SDR 之间没有路由
- SDR IP 角色配置错误
- 检查防火墙是否验证端口 11088 未被阻止
- 站点之间的 MTU 配置错误/未对齐
- 任何其他网络问题
Resolution
解决方法
- 要验证 SDR 之间的连接,请运行
scli --query_disconnection --print_all- 验证没有断开连接的 SDR。 - 如果所有设备均已连接,但初始拷贝仍然失败,请按上面 iperf 示例中所述在站点 1 和站点 2 之间执行带宽测试。
如果未发现网络问题,并且 SDR 到 SDR 的连接正常,请执行带宽测试,如果测试返回成功,但初始复制无法完成,请将问题上报给 PowerFlex L3。
提醒:如果网络正常,但源卷很大,并且初始拷贝无法完成,请检查用户手册中的“离线初始拷贝”选项。
受影响的版本
运行复制的所有 PowerFlex 版本
已修复问题的版本
不是 PowerFlex 相关问题