XtremIO: SSD 장애가 XtremIO 어레이에 미치는 성능 영향
Summary: SSD 장애가 XtremIO 어레이에 미치는 성능 영향
Symptoms
XtremIO DPG에서 단일 또는 다중 SSD 장애는 XtremIO 어레이의 성능에 영향을 미칠 수 있습니다. 이 상황의 원인을 이해하려면 DPG Operations & DPG States를 설명해야 합니다.
- 주요 DPG 운영:
DPG 재구축:
- 일시: SSD에 장애가 발생한 경우
- 이유: 이중 패리티 보호 복원
DPG 통합:
- 일시: 기술 지원 담당자가 고장 난 SSD를 새 드라이브로 교체하는 경우
- 이유: DPG에 새 SSD를 추가합니다.
DPG 상태:
- Healthy: 이중 패리티 보호
- 단일 성능 저하: 단일 패리티 보호
- 이중 성능 저하: 패리티 보호 없음
- 실패: 데이터 손실
XtremIO는 CAS(Content Aware Storage)입니다. 따라서 DPG에 대한 모든 I/O 작업은 통계적으로 랜덤이며, 이를 통해 사용자의 랜덤 또는 순차적 워크로드에 관계없이 동일한 성능을 달성할 수 있습니다. 또 다른 이점은 SSD에 장애가 발생하면 클러스터가 페이지를 원래 위치로 되돌릴 필요가 없다는 것입니다.
CAS가 아닌 다른 어레이에는 순차적 논리 데이터와 순차적 물리적 데이터 모두에 대한 요구 사항이 있습니다. 데이터를 원래 위치로 되돌리지 않으면 순차적 I/O 성능이 저하됩니다.
DPG 재구축 설명:
SSD가 제거되거나 SYM이 자동 DPG 재구축을 실행하는 데 실패하면 DPG 재구축을 수행하는 두 가지 작업이 필요합니다.
1단계: 손실된 모든 데이터를 복구하여 다른 곳에 쓰기:
손실된 페이지(데이터 + 패리티)가 DPG(새 쓰기 흐름
)로 복구됩니다.PLBM/HMD 테이블이 업데이트됩니다.
2단계: 모든 스트라이프의 패리티 정보 업데이트:
데이터/패리티 페이지를 이동하려면 (모든 스트라이프에서) 모든 패리티를 업데이트해야 함두
작업 모두 시간을 절약하고 쓰기를 줄이려면 모든 스트라이프를 업데이트해야 합니다. 둘 다 한 번의 반복으로 수행됩니다.
DPG 통합 설명: 새 SSD를 DPG에 추가하려면 수동 개입이 필요합니다.
- 기술 지원 담당자의 수동 개입 필요(DAE 슬롯에 새 SSD 배치)
- 중요도가 거의 없거나 전혀 없음(재구축과 반대)
요청이 완료되면 DPG 통합 프로세스가 패리티 블록의 균형을 조정합니다. (균등한 패리티 분배를 위해) 패리티 블록만 원래 SSD로 복구됩니다. 이 작업은 새 SSD를 할당, 추가 및 통합하여 수행됩니다.
Cause
XtremIO DPG에서 단일 또는 다중 SSD 장애
Resolution
위의 정보에 따르면 DPG 재구축/통합 중에 클러스터 리소스 활용도가 약간 증가하지만 일반적으로 성능이나 레이턴시는 눈에 띄게 증가하지 않습니다. 그러나 이중 DPG를 재구축하는 동안 클러스터는 데이터 무결성을 보장하고 데이터 손실을 방지하기 위해 장애가 발생한 SSD를 최대한 빨리 재구축하는 데 거의 모든 리소스를 집중합니다. 이는 의도적으로 예상되는 현상이며 모든 작업이 완료된 후 성능이 정상 성능으로 돌아가야 합니다.