Dell Unity: 스냅샷 대기열이 크거나 증가하여 성능 문제가 발생함
Summary: Dell Unity: 스냅샷 대기열이 크거나 증가하여 성능 문제가 발생하고 SP(Storage Processor) CPU가 높음
Symptoms
- RPO(Recover Point Objective) 값이 더 공격적인 것으로 간주되는 값(즉, 10분)으로 감소했습니다. "
- "RPO(Recovery Point Objective )는 업계에서 인정된 용어로, 장애 발생 시 손실될 수 있는 허용 가능한 데이터의 양을 나타내며 시간 단위로 측정합니다. 비동기식 복제 세션을 설정할 때 RPO를 기반으로 자동 동기화를 구성할 수 있습니다. RPO는 최소 5분에서 최대 1,440분(24시간)까지 지정할 수 있습니다. 기본 RPO는 60분(1시간) 간격으로 설정됩니다. 동기식 복제의 경우 RPO가 0으로 고정됩니다."
- LUN에 대해 "제거 중" 상태의 스냅샷이 많이 있습니다.
- "제거 중" 상태의 스냅샷 수가 시간이 지남에 따라 증가하고 있습니다.
- 상관 관계가 있는 IOPS/대역폭 워크로드가 없는 높은 SP CPU.
- LUN 및 백엔드 드라이브의 대기 및 응답 시간이 높아졌습니다.
Unisphere의 "블록" 섹션에서 확인할 수 있습니다. LUN별로 읽기를 가져오려면 "Snapshots" 열을 추가해야 합니다. 한 LUN 또는 여러 LUN에 대해 많은 스냅샷이 나열되는 경우 몇 가지 사항이
있음을 나타냅니다. 개별 LUN으로 이동하여 "Snapshots" 탭을 선택하여 확인을 위해 "State"("destroying"으로 표시됨) 및 "Taken by"("Replication"으로 표시됨)를 확인합니다.
Cause
큐가 만들어지는 원인에는 여러 가지가 있을 수 있습니다. 주요 원인 중 하나는 '너무 공격적'으로 간주되는 RPO에 기인합니다.
기본 비동기식 블록 복제:
기본 비동기식 블록 복제는 데이터를 전송하기 위해 두 스냅샷 간의 델타를 사용합니다. 복제 세션 수명 동안 변경 사항을 전송할 때 스냅샷 "새로 고침"이 여러 번 수행됩니다.
스냅샷을 새로 고치면 실제로 삭제되고 백그라운드에서 다시 생성됩니다.
가장 주목할 만한 문제는 SP CPU 사용량과 스냅샷 기능과 관련된 추가 백엔드 I/O입니다.
Unity 어레이가 비교적 적절한 시간 내에 스냅샷을 완전히 삭제할 수 없기 때문에 "삭제" 상태로 전환되는 스냅샷의 속도가 지정된 시간 내에 완전히 삭제되는 스냅샷의 속도를 훨씬 초과합니다. RPO 값을 줄이면 지정된 시간 내에 스냅샷 생성 또는 삭제의 양이 증가합니다.
Resolution
삭제 중 상태의 스냅샷이 가장 많은 LUN의 경우 스냅샷 삭제가 따라잡을 수 있을 때까지 RPO를 기본값(60분) 이상으로 설정합니다. 대기열에 대기 중인 스냅샷 수에 따라 이 새 RPO로 값을 그대로 두고 적절하게 판단할 수 있습니다.
"Dell Technologies는 스냅샷이 활성 상태인 하이브리드 풀에 플래시 계층을 포함할 것을 권장합니다.
스냅샷은 시스템에서 전체 CPU 로드를 늘리고 스토리지 풀에서 전체 드라이브 IOPS를 증가시킵니다. 또한 스냅샷은 풀 용량을 사용하여 스냅샷에서 추적되는 오래된 데이터를 저장하므로 스냅샷이 삭제될 때까지 풀에서 사용되는 용량이 증가합니다. 스토리지 풀에 대한 성능 및 용량 요구 사항을 모두 계획할 때는 스냅샷의 오버헤드를 고려하십시오.
스토리지 객체에서 스냅샷을 활성화하기 전에 시스템을 모니터링하고 기존 리소스가 추가 워크로드 요구 사항을 충족할 수 있는지 확인하는 것이 좋습니다(하드웨어 기능 지침 섹션, 표 2 참조). 한 번에 몇 개의 스토리지 객체에서 스냅샷을 활성화한 다음 추가 스냅샷을 활성화하기 전에 시스템을 모니터링하여 권장 작동 범위 내에 있는지 확인합니다.
스냅샷 작업(생성, 삭제 등)에 시차를 두고 실행하는 것이 좋습니다. 이 작업은 서로 다른 스토리지 객체 세트에 대해 서로 다른 스냅샷 스케줄을 사용하여 수행할 수 있습니다. 또한 FAST VP 재배치가 완료된 후 스냅샷 작업을 예약하는 것이 좋습니다.
스냅샷은 시스템에 의해 비동기식으로 삭제됩니다. 스냅샷이 삭제 중인 경우 "Destroying"으로 표시됩니다. 시스템에서 스냅샷 삭제가 시간 경과에 따라 누적되는 경우 기존 스냅샷 스케줄이 너무 공격적이라는 의미일 수 있습니다. 스냅샷을 생성하는 빈도를 줄이면 예측 가능한 수준의 성능이 제공될 수 있습니다.
Dell Unity는 호스트 I/O에 미치는 영향을 줄이기 위해 스냅샷 삭제 작업을 제한합니다. 스냅샷 삭제는 시스템 활용도가 낮은 기간 동안 더 빠르게 발생합니다." Dell Unity: 모범 사례 가이드
Additional Information