Data Domain - 압축 FAQ
Summary: 이 문서에서는 압축과 관련된 자주 묻는 질문에 대한 답변을 제공합니다. Data Domain Restorer는 데이터 유형과 무관합니다. Restorer는 고유한 데이터만 백업하는 압축 알고리즘을 사용하므로 중복 패턴 또는 여러 백업이 한 번만 저장됩니다. 일반적인 압축률은 몇 주간의 일일 백업 및 증분 백업을 수행할 경우 20:1입니다. 또한 데이터 유형은 압축 비율에 영향을 미치므로 압축된 사진 파일, 데이터베이스 및 압축 아카이브(예: .zip 파일)는 압축이 잘 되지 않습니다. ...
Instructions
적용 대상
- 모든 DDR
- 모든 릴리스
압축: 자주 묻는 질문:
1. 증분 백업과 전체 백업에는 동일한 디스크 공간이 사용됩니까?
이상적으로는 그렇습니다. 하지만 실제 환경에서는 다음과 같은 이유로 전체 백업 시 증분 백업 시보다 조금 더 많은 공간이 사용됩니다. 이러한 이유는 데이터가 변경되지 않은 후에도 전체 백업이 여전히 양의 공간을 소비하는 이유도 설명합니다.
- 메타데이터는 백업의 논리적 크기의 약 0.5%를 차지합니다. 전체 백업의 논리적 크기는 100GB이고 증분 백업의 논리적 크기는 2GB라고 가정하겠습니다. 증분 압축은 1GB로 압축된다고 가정하겠습니다. 이 경우 전체 백업에는 최소 1.5GB가 필요합니다.
- DD 압축 엔진은 성능을 위해 일부 중복 데이터 세그먼트를 다시 작성합니다. 변경 사항의 데이터 인접성이 낮을수록 중복 항목이 더 많이 기록됩니다. 중복 항목은 나중에 "filesys cleaning"을 통해 재확보됩니다. 논리적 크기의 약 2%가 중복되어 다시 기록되었습니다. 이 수준의 중복을 가정하면 전체 백업에는 1GB(압축) + 0.5GB(메타데이터) + 2GB(중복) = 3.5GB가 사용될 수 있습니다. 기록된 중복 데이터의 양은 시스템 매개변수를 통해 제어할 수 있지만 일반적으로 현장에서는 이 매개변수를 조정하지 않습니다.
- 데이터 세분화는 NFS 클라이언트가 데이터를 전송하는 순서에 따라 백업마다 약간 다를 수 있습니다. 이 순서는 확정적이지 않습니다. 일반적으로 분할 알고리즘은 이동 및 순서 변경을 허용합니다. 그러나 이동 및 재정렬하기 쉬운 일부 강제 세그먼트도 생성됩니다. 일반적으로 세그먼트의 약 0.2%가 강제로 생성되므로 훨씬 더 많은 공간이 사용될 것으로 예상할 수 있습니다.
2. "filesys show space"와 "filesys show compression"은 서로 다른 숫자를 표시합니다.
"filesys show space"는 저장된 데이터의 논리적 크기와 명령 실행 시 사용된 디스크 공간을 기준으로 압축률을 표시합니다.
"filesys show compression"은 파일이 생성된 시점에 각 파일이 압축된 방식에 따라 압축률을 표시합니다.
"filesys show compression"은 주로 지원 및 디버깅에 사용됩니다. 파일을 삭제하면 "filesys show compression"이 압축 비율을 과대 추정합니다.
예를 들어 첫 번째 전체 백업의 압축률은 2배라고 가정하겠습니다. 데이터 변경 없이 후속 전체 백업을 수행하면 압축률이 200배 증가합니다. 첫 번째 전체 백업은 삭제됩니다. "filesys show space"는 2배의 압축률을 표시합니다. "filesys show compression"은 이제 존재하는 유일한 파일이 생성될 때 200배의 압축률을 갖기 때문에 200배의 압축률을 표시합니다.
위에서 언급한 예에서 두 번째 백업 후 "filesys show space"는 누적 비율을 약 4배로 표시합니다. 삭제하지 않고 더 많은 백업을 계속 수행하면 누적 비율이 200배로 점진적으로 향상됩니다.
그 외에도 몇 가지 사소한 차이점이 있습니다.
- "filesys show compression"은 컨테이너 수준의 낭비를 고려하지 않으므로 압축률을 더 과대 추정합니다.
- "filesys show compression"은 전역 압축에 의한 중복 제거를 고려하지 않으므로 압축률을 과소 추정합니다.
- "filesys show compression"은 파일별 또는 디렉토리별 정보를 제공할 수 있지만 "filesys show space"는 전체 시스템으로 제한됩니다.
- "filesys show compression"는 전역 압축과 로컬 압축 간의 구분을 보여주는 반면 "filesys show space"는 이러한 정보를 제공하지 않습니다.
참조
- "filesys show space"와 "vtl tape show summary"의 압축률이 다른 이유는 무엇입니까?
"vtl tape show summary"에 표시된 압축률은 "filesys show compression /backup/vtc"와 일치하도록 설계되었습니다.
보다 일반적으로 이 VTL 명령에는 테이프 카트리지의 하위 집합을 선택하는 선택적 필터가 제공될 수 있으며 압축은 해당 카트리지 하위 집합에서 "filesys show compression"과 일치해야 합니다.
그러나 VTL UI 코드의 버그로 인해 "VTL tape show summary"에 표시되는 압축이 잘못되었습니다. 이는 알려진 문제이며 릴리스 4.5.0.0에서 해결되었습니다.
- "filesys show compression last 24 hours"가 VTL에 대한 기대치와 일치하지 않는 이유는 무엇입니까?
VTL의 경우 "filesys show compression last 24 hours"와 같은 명령의 출력이 "system show performance"와 같은 다른 소스를 기반으로 한 기대치를 충족하지 못하는 경우가 많습니다.
이 문제는 "fsc(filesys show compression)"의 특성으로 인해 발생합니다. 일반적으로 "filesys show compression"은 선택한 파일의 누적 통계를 표시합니다. 정규자 "last 24 hours"는 지난 24시간 동안 업데이트된 파일을 선택합니다. 파일이 생성되었거나 마지막으로 크기가 0으로 잘린 이후에도 통계는 계속 누적됩니다. 따라서 파일이 지난 24시간 동안 추가된 경우 "filesys show compression last 24 hours"는 지난 24시간 이전의 누적 통계를 표시합니다.
VTL이 아닌 환경에서는 백업 파일이 한 번만 기록되므로 업데이트된 파일과 생성된 파일 간에 차이가 크지 않습니다. VTL 환경에서는 백업을 기존 테이프 파일에 추가할 수 있습니다. 예를 들어 용량이 100GB인 테이프가 최대 50GB까지 채워져 있다고 가정하겠습니다. 지난 24시간 동안 10GB의 데이터가 이 테이프에 추가된 경우 "filesys show compression last 24 hours"는 60GB로 기록된 파일의 "Original bytes"를 표시합니다.
- 누적 압축률은 어떻게 계산됩니까?
개별 압축률은 선형적으로 합산되지 않습니다.
첫 번째 전체 백업의 압축률이 2배이고 두 번째 전체 백업의 압축률이 20배라고 가정하겠습니다. 누적 압축률은 (2+20)/2 = 11배가 아니라 2/(1/2+1/20) = 3.64배입니다.
일반적으로 압축률이 낮을수록 누적 압축률에 더 큰 영향을 미칩니다.
i번째 백업에 논리적 크기 si와 압축률 ci가 있다고 가정합니다. 이 경우 k 백업에 대한 누적 압축률은 다음과 같이 계산할 수 있습니다.
C = (총 논리적 크기)/(사용된 총 공간)
총 논리적 크기 = s1 + s2 + .. + sk
사용된 총 공간 = s1/c1 + s2/c2 + ... + sk/ck
종종 논리적 크기는 거의 서로 동일합니다. 이 경우 위의 계산은 다음과 같이 단순화할 수 있습니다.
예를 들어 첫 번째 전체 백업이 3배 압축되고 이후의 각 전체 백업이 30배 압축되고 보존 기간이 30일인 경우 누적 압축은 30/(1/3+29/30) = 23배입니다.
- Data Domain 압축은 어떻게 작동합니까?
이 질문을 다루는 별도의 KB 문서에서 설명합니다. KB 문서: "Data Domain 압축 이해" Data Domain: Data Domain 압축 이해
- Data Domain은 멀티플렉싱을 지원합니까?
백업 애플리케이션에서 데이터를 멀티플렉싱하면 전역 중복 제거가 매우 저하됩니다. 자세한 내용은 관련 문서 백업 소프트웨어에서 멀티플렉싱이 지원되지 않음 Data Domain: 백업 소프트웨어의 멀티플렉싱을 참조하십시오.
- 일대일 디렉토리 복제 시 복제본에 더 나은 전역 압축이 표시되는 이유는 무엇입니까?
이는 일반적으로 시스템에 기록된 중복 세그먼트의 수준이 변하기 때문입니다.
-
소스에 저장된 데이터는 소스에 저장된 이전 데이터와 비교하여 한 번 중복 제거되었습니다.
-
회선을 통해 전송된 데이터는 복제본에 저장된 데이터와 비교하여 한 번 중복 제거되었습니다.
-
복제본에 저장된 데이터는 회선을 통해 데이터를 전송될 때 한 번, 수신된 데이터가 복제본에 기록될 때 한 번 중복 제거되었습니다.
중복 제거 프로세스에서 일부 중복이 남기 때문에 여러 번 중복 제거된 데이터의 중복은 더 적습니다. 소스에 저장되고 회선을 통해 전송된 데이터는 한 번 중복 제거되므로 소스와 복제본에 저장된 데이터가 유사하다고 가정하면 거의 동일합니다. 복제본에 저장된 데이터는 중복 제거가 두 번 수행되므로 압축률이 더 높습니다.
파일 시스템 정리는 대부분의 중복 항목을 제거합니다. 따라서 소스와 복제본에서 정리를 실행한 후 저장된 데이터의 양은 거의 동일해야 합니다.
- lz, gzfast 및 gz 로컬 압축 설정을 사용할 때 압축에서 달라지는 점은 무엇입니까?
filesys option set compression {none | lz | gzfast | gz}
경고: 로컬 압축 유형을 변경하기 전에 파일 시스템을 종료해야 합니다. 그런 다음 압축 옵션을 설정한 후 즉시 재시작할 수 있습니다.
일반적으로 압축 순서는 다음과 같습니다.
대략적인 차이점은 다음과 같습니다.
- lz 대신 gzfast로 압축 시 압축률이 최대 15% 향상되고 CPU 사용량이 2배 증가합니다.
- lz 대신 gz로 압축 시 압축률이 최대 30% 향상되고 CPU 사용량이 5배 증가합니다.
- gzfast 대신 gz로 압축 시 압축률이 최대 10~15% 향상됩니다.
로컬 압축을 변경하면 변경 후 DataDomain Restorer에 기록된 새 데이터에 먼저 영향을 미칩니다. 이전 데이터는 다음 정리 주기가 될 때까지 이전 압축 형식을 유지합니다. 다음 정리 주기에서는 모든 이전 데이터를 새 압축 형식으로 복사합니다. 이로 인해 정리가 훨씬 더 오래 실행되고 CPU가 더 많이 사용됩니다.
고객 시스템의 CPU가 이미 부족한 경우(특히 고객이 백업과 복제를 동시에 수행하는 경우) 백업 및/또는 복제 속도가 느려질 수 있습니다. 고객은 이 변환을 수행하기 위해 시간을 명시적으로 예약할 수 있습니다.
지식 문서 참조:
Additional Information