PowerFlex 복제 - 초기 복제 실패
Summary: 초기 복사 진행이 중단되었습니다. 경우에 따라 작은 볼륨의 경우 100% 완료에 도달하는 반면 큰 볼륨의 경우 초기 복제를 완료하지 못할 수 있습니다.
Symptoms
시나리오
소스와 타겟 시스템 간에 네트워크 문제가 있거나 대역폭이 낮은 경우 초기 복사 단계가 완료되지 않을 수 있습니다.
가능한 시나리오는 작은 크기의 볼륨에 대해서는 초기 복제가 완료되지만 큰 볼륨이 포함된 RCG(Replication Consistency Group)에서는 소스 볼륨과 타겟 볼륨이 100% 일관성에 도달할 수 없고 소스 볼륨에서 새 쓰기를 수신함에 따라 소스 저널 용량 활용도가 증가하는 것입니다.
참고: 대용량 소스 볼륨에서 초기 복사를 완료할 수 있거나 오프라인 초기 복사가 수행된 경우에도 네트워크 문제가 있고 소스 볼륨에 쓰기/다시 쓰기가 수행되면 RPO를 충족하지 못하고 소스와 타겟 간의 일관성이 손실될 수 있습니다.
증상
-
초기 복사 진행률이 멈춥니다. 예를 들어 "초기 복사 진행률"이 영구적으로 70%로 표시됩니다.
# scli --query_all_replication_pairs Local Id: bf50999700000000 Remote Id: bad02d5600000000 Copy Type: ONLINE_COPY Initial Copy State: ACTIVE Name: Rep Local Volume Id: 2236ff5400000001 Remote Volume Id: 831e94c40000000d Local Volume Name: vol_lir1 Remote Volume Name: vol_lir1 Initial Copy progress: 70% query_all_replication_pairs returned 1 Replication Pairs.
2 - SDR 추적을 확인하면 다음 오류가 식별됩니다. 네트워크 문제
27/02 13:39:11.051442 (nil):netCon_ExchangeNewCon_CK:03589: ERROR: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148, Can't send NEW_CON message 27/02 13:39:11.051454 (nil):netCon_ConnectToPeer_CK:03519: Con 0x7f42a80fc5c8 sock 0x7f42a80fd148 rollback connect 27/02 13:39:11.092475 (nil):netCon_IsKaNeeded:04338: ERROR: CON 0x7f42a80fb660 failed to send for 180 iterations. Marking as down . . . 27/02 13:39:12.628337 (nil):mapVolIO_ReportIOErrorIfNeeded:00469: Vol ID 0x21c5f4c600000032. Last vol network error status NOT_CONN(4) Reason (NOT_CONN) RC (NOT_CONN) Retry count (0) chan (0) Total IO millis (1010) 27/02 13:39:12.637268 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d59b17d8. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4) 27/02 13:39:12.637288 (nil):mapVolIO_Do_CK:00884: Mit: 0x7f40d5a46030. Vol ID 0x21c5f4c600000032. Send error. rc NOT_CONN(4)
초기 복사 상태로, 작은 볼륨은 정상이지만 한 번 큰 볼륨은 완료할 수 없습니다.
27/02 13:39:10.774502 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01871: (SDR_INITIAL_COPIER) Initial Copier - Got 2 SYSTEM_INITIAL_COPY CGs and 1 done VAEs 27/02 13:39:10.774520 0x7f42814f9db0:initialCopierCg_FillCgVaeDoneMsg:01963: (SDR_INITIAL_COPIER) Filled VAE Done MSG for Pair-Id de9ddcc900000001, GenNum: 2137, VaeId: 14 27/02 13:39:10.774633 0x7f42814f9db0:initialCopier_SendSingleVaeDoneMsg:01921: (SDR_INITIAL_COPIER) Initial Copier - Total number of 1 VAEs will be reported as Done
3 - SDR 연결을 확인하면 SDR-SDR 연결의 일부 또는 전부가 끊어진 것으로 표시될 수 있습니다.
scli --query_disconnection --print_all peer_system ID: ff74bce300000000 Name: DR_PFlex_GW SDR-SDR connectivity status: Multiple disconnections SDR ID: 2d01669c00000000 Name: Sdr-172.24.194.137 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669d00000001 Name: Sdr-172.24.194.138 is disconnected from: SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669e00000002 Name: Sdr-172.24.194.135 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7 SDR ID: 2d01669f00000003 Name: Sdr-172.24.194.136 is disconnected from: SDR ID: 67b9def800000000 Name: N/A IPs: 172.24.105.4 172.24.105.2 172.24.100.2 SDR ID: 67ba060800000001 Name: N/A IPs: 172.24.105.6 172.24.105.4 172.24.100.4 SDR ID: 67ba060900000002 Name: N/A IPs: 172.24.105.5 SDR ID: 67ba2d1800000003 Name: N/A IPs: 172.24.135.7 172.24.100.7
4. 모든 SDR-SDR 연결이 정상이더라도 네트워크 용량이 부족하고 대역폭이 부족하여 초기 복사를 성공적으로 완료할 수 없는 경우 초기 복사 실패와 동일한 증상을 가진 조건이 발생할 수 있습니다.
두 사이트 간의 대역폭을 테스트하려면 다음과 같은 서로 다른 도구(예: "iperf")를 사용할 수 있습니다.
대역폭 테스트는 사이트 간 네트워크에 영향을 줄 수 있습니다. Site2Site 복제에 WAN을 사용하는 경우 이 테스트는 낮은 업무 시간에 수행해야 하며 테스트가 수행되는 네트워크를 테스트 기간 동안 사용할 수 없다는 점을 고려하여 고객에게 알립니다.
대용량 전송과 같이 적절한 판독값을 가질 수 있을 만큼 충분히 오랫동안 테스트를 실행하는지 확인합니다. 또한 이 테스트는 고객의 네트워크에 스트레스를 줍니다.
사이트1
[root@112AX-7 ~]# iperf3 -s ----------------------------------------------------------- Server listening on 5201 ----------------------------------------------------------- Accepted connection from 172.24.1.174, port 54882 [ 5] local 172.24.1.173 port 5201 connected to 172.24.1.174 port 54886 [ ID] Interval Transfer Bandwidth [ 5] 0.00-1.00 sec 2.76 GBytes 23.7 Gbits/sec [ 5] 1.00-2.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 2.00-3.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 3.00-4.00 sec 2.87 GBytes 24.7 Gbits/sec [ 5] 4.00-5.00 sec 2.88 GBytes 24.7 Gbits/sec [ 5] 5.00-5.04 sec 114 MBytes 24.7 Gbits/sec - - - - - - - - - - - - - - - - - - - - - - - - - [ ID] Interval Transfer Bandwidth [ 5] 0.00-5.04 sec 0.00 Bytes 0.00 bits/sec sender [ 5] 0.00-5.04 sec 14.4 GBytes 24.5 Gbits/sec receiver ----------------------------------------------------------- Server listening on 5201 -----------------------------------------------------------
사이트2
[root@112AX-8 ~]# iperf3 -c 172.24.1.173 -i 1 -t 5 Connecting to host 172.24.1.173, port 5201 [ 4] local 172.24.1.174 port 54886 connected to 172.24.1.173 port 5201 [ ID] Interval Transfer Bandwidth Retr Cwnd [ 4] 0.00-1.00 sec 2.87 GBytes 24.7 Gbits/sec 12 734 KBytes [ 4] 1.00-2.00 sec 2.88 GBytes 24.7 Gbits/sec 0 778 KBytes [ 4] 2.00-3.00 sec 2.88 GBytes 24.7 Gbits/sec 0 778 KBytes [ 4] 3.00-4.00 sec 2.87 GBytes 24.7 Gbits/sec 0 786 KBytes [ 4] 4.00-5.00 sec 2.88 GBytes 24.7 Gbits/sec 0 804 KBytes - - - - - - - - - - - - - - - - - - - - - - - - - [ ID] Interval Transfer Bandwidth Retr [ 4] 0.00-5.00 sec 14.4 GBytes 24.7 Gbits/sec 12 sender [ 4] 0.00-5.00 sec 14.4 GBytes 24.7 Gbits/sec receiveriperf Done.
영향
복제가 설정되지 않았습니다. 사이트 1이 사이트 2와 일치하지 않습니다. 운영 사이트에서 DR 사이트로 복제가 있는 경우 페일오버 시나리오가 있으면 DR 사이트를 추월할 수 없습니다.
Cause
SDR 프로세스가 시작되었고 두 사이트 모두에서 안정적인지 확인합니다. 그렇다면 일반적인 근본 원인은 사이트 1과 사이트 2 간의 네트워크 문제와 관련이 있을 가능성이 높으므로 PowerFlex는 초기 복제 문제에 대해 책임을 지지 않습니다. 즉, 네트워크 문제가 해결되지 않으면 초기 복사가 작동하지 않습니다.
문제는 다음 중 하나일 수 있습니다.
- SDR IP의 잘못된 구성
- 사이트 1의 SDR과 사이트 2의 SDR 간에 라우트 없음
- SDR IP 역할이 잘못 구성되었습니다.
- 방화벽에서 포트 11088이 차단되지 않았는지 확인합니다
- 사이트 간 잘못된/정렬되지 않은 MTU 구성
- 기타 네트워크 문제
Resolution
해결 방법
- SDR 간의 연결을 검증하려면 다음을 실행합니다.
scli --query_disconnection --print_all- 연결이 끊어진 SDR이 없는지 확인합니다. - 모두 연결되었지만 초기 복사가 여전히 실패하는 경우 위의 iperf 예에서 설명한 대로 사이트 1과 사이트 2 사이에서 대역폭 테스트를 수행하십시오.
네트워크 문제가 발견되지 않고 SDR-SDR 연결이 정상이면 대역폭 테스트를 수행하고 테스트가 성공했지만 초기 복사가 완료되지 않으면 문제를 PowerFlex L3로 에스컬레이션합니다.
참고: 네트워크가 양호하지만 소스 볼륨이 커서 초기 복사를 완료하지 못한 경우 사용 설명서에서 "오프라인 초기 복사" 옵션을 확인합니다.
영향을 받는 버전
복제를 실행하는 모든 PowerFlex 버전
수정된 버전
PowerFlex 관련 문제가 아님