PowerFlex: 복제를 사용 중일 때 클라이언트 IO 오류
Summary: 클라이언트 서버에서 PowerFlex 지원 디바이스에 대한 I/O 오류가 발생하고 있습니다. 전체 백엔드(MDM 및 SDS)가 정상인 것으로 나타납니다. PowerFlex 복제를 활용 중이며 하나 이상의 RCG에 대한 일부 RPO 오류가 있습니다.
Symptoms
- 성능 저하 또는 장애가 발생한 용량 없음
- SDS가 분리되지 않았고 오류가 보고된 SDS 디바이스가 없습니다.
- 연결이 끊긴 MDM 없음
- 복제 기능을 활용하는 중입니다.
다음 오류를 보고하는 하나 이상의 UI 알림:
Minor - Remote Consistency Group RPO Exceeded
Major - The RCG consistent image is too large to be consumed by the destination in one piece.
MDM 이벤트 로그는 다음을 보고할 수 있습니다.
2024-06-11 15:55:56.592000:0001566:RPL_PD_CAP_UTILIZATION_MINOR WARNING Protection Domain ID <pd_id> Replication journal capacity is at MINOR utilization level
...
2024-06-11 16:20:12.848000:0001567:RPL_PD_CAP_UTILIZATION_MAJOR ERROR Protection Domain ID <pd_id> Replication journal capacity is at MAJOR utilization level
...
2024-06-11 17:19:57.272000:0001584:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at VERY_HIGH utilization level
...
2024-06-11 17:52:26.352000:0001585:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at CRITICAL utilization level
...
2024-06-11 16:25:14.381000:0001576:RPL_CG_MOVED_TO_SLIM_MODE INFO Replication Consistency Group ID <rcg_id> entered slim mode
...
2024-06-11 18:27:29.738000:0001586:SDR_CRITICAL_CAP_CHANGE ERROR SDR ID <sdr_id>) handling user data changed discarded old user data and stopped to accumulate new user data due critical capacity
영향
클라이언트가 복제 중인 볼륨에 액세스할 수 없습니다.
Cause
저널 용량과 관련된 내부 카운터에서 MDM과 SDR 구성 요소가 일치하지 않는 소프트웨어 결함이 드물게 발생할 수 있습니다.
이러한 불일치로 인해 SDR의 용량이 가득 찼을 때 MDM이 추가 저널 용량을 할당 취소(해제)하지 못할 수 있으며, 이로 인해 PowerFlex에서 지원하는 디바이스를 활용하는 클라이언트 서버에서 I/O 오류가 발생할 수 있습니다.
Resolution
모든 SDR 구성 요소를 점진적으로 재시작해야 하며 소스 시스템의 MDM 소유권을 전환하여 문제를 해결해야 합니다.
타겟 사이트에서 SDR 구성 요소 재시작
1. 2단계를 진행하기 전에 모든 SDR을 식별하고 정상 상태인지 확인합니다.
scli --query_all_sdr
2. SDR에서 유지 보수 모드로 전환합니다.
scli --enter_sdr_maintenance_mode --sdr_name <name>
3. 1단계에서 명령을 실행하여 SDR이 유지 보수 모드에 있는지 확인합니다.
4. SDR 구성 요소 재시작
pkill sdr
5. 소스 사이트의 모든 SDR에 대해 1-4단계를 반복합니다.
6. SDR의 유지 보수 모드를 종료합니다.
scli --exit_sdr_maintenance_mode --sdr_name <name>
7. 모든 SDR이 재시작되고 정상 상태가 되면 MDM 소유권을 전환합니다.
#3.x
scli --switch_mdm_ownership --new_master_mdm_name <name>
#4.x
scli --switch_mdm_ownership --new_primary_mdm_name <name>
8. 클라이언트 서버의 I/O 오류가 더 이상 보고되지 않는지 확인합니다. 클라이언트가 읽기 전용 파일 시스템을 시작한 경우 클라이언트 서버를 재부팅해야 할 수 있습니다.
영향을 받는 버전
PowerFlex 3.x
PFMP 4.x
수정된 버전
PowerFlex 4.5.3
PowerFlex 4.5.4 - 4.5.4 HF1
로 업그레이드 PowerFlex 4.5.5 - 수정 사항 없음
PowerFlex 4.5.6 이상
Additional Information
영향을 받는 버전
PowerFlex 3.x
PowerFlex 4.x
수정된 버전
PowerFlex 4.5.3
PowerFlex 4.5.4 - 4.5.4 HF1
로 업그레이드PowerFlex 4.5.5 - 사용 가능한 수정 사항이 없습니다.
PowerFlex 4.5.6 이상