Data Domain – často kladené dotazy ohledně komprese
Summary: Tento článek odpovídá na nejčastější otázky ohledně komprese. Nástroje Data Domain Restorer jsou nezávislé na typu dat. Nástroj Restorer používá kompresní algoritmy, které zálohují pouze jedinečná data – duplicitní vzory nebo vícenásobné zálohy se ukládají pouze jednou. Typická míra komprese je 20:1 po mnoho týdnů provádění denních a přírůstkových záloh. Datový typ má také vliv na kompresní poměr, takže komprimované soubory obrázků, databáze a komprimované archivy (například soubory .zip) se nekomprimují dobře. ...
Instructions
PLATÍ PRO
- Všechna zařízení DDR
- Všechna vydání
Komprese: Často kladené dotazy:
1. Budou přírůstkové a úplné zálohy využívat stejné místo na disku?
V ideálním případě by to tak bylo. V praxi úplná záloha využívá o něco více místa než přírůstková z následujících důvodů. Tyto důvody také vysvětlují, proč úplná záloha spotřebovává kladné množství místa, i když nedošlo k žádným změnám dat.
- Metadata zabírají přibližně 0,5 % logické velikosti zálohy. Předpokládejme, že logická velikost celé zálohy je 100 GB a přírůstkové zálohy 2 GB. Předpokládejme, že přírůstková záloha se zkomprimuje na 1 GB. Poté bude plná záloha zabírat alespoň 1,5 GB.
- Kompresní modul DD přepíše některé duplicitní datové segmenty kvůli výkonu. Čím horší je datová lokalita změn, tím více duplikátů se zapíše. Duplikáty se později uvolní pomocí procesu „filesys cleaning“. Viděli jsme, že asi 2 % logické velikosti se přepsala jako duplicitní. Pokud budeme počítat s touto úrovní duplikátů, může celá záloha zabírat 1 GB (komprimovaná) + 0,5 GB (metadata) + 2 GB (duplikáty) = 3,5 GB. Množství zapsaných duplikátů lze řídit pomocí systémového parametru, ale obecně tento parametr v terénu neladíme.
- Segmentace dat se může mezi jednotlivými zálohami mírně lišit v závislosti na pořadí, ve kterém klient NFS odesílá data. Toto pořadí není pevně dané. Obecně platí, že segmentační algoritmus toleruje posuny a změnu pořadí. Vytváří však také některé „vynucené“ segmenty, které jsou náchylné k posunům a změně pořadí. Obvykle je vynuceno asi 0,2 % segmentů, takže lze očekávat, že se využije mnohem více místa.
2. Příkazy „filesys show space“ a „filesys show compression“ zobrazují různá čísla:
Příkaz „filesys show space“ poskytuje kompresní poměr založený na logické velikosti uložených dat a místě na disku využitém v době spuštění příkazu.
„filesys show compression“ poskytuje kompresní poměr na základě toho, jak byly jednotlivé soubory zkomprimovány v době jejich vytvoření.
Příkaz „filesys show compression“ se používá hlavně pro podporu a ladění. V případě odstranění souborů příkaz „filesys show compression“ nadhodnotí kompresní poměr.
Předpokladem je například to, že první úplná záloha se zkomprimuje 2x. Následná plná záloha bez jakýchkoli změn dat se zkomprimuje 200x. První úplná záloha se odstraní. Příkaz „filesys show space“ vykáže kompresní poměr 2x. Příkaz „filesys show compression“ nyní zobrazí kompresní poměr 200x, protože jediný soubor, který nyní existuje, byl při vytvoření zkomprimován 200x.
Ve výše uvedeném příkladu po druhé záloze příkaz „filesys show space“ vykáže kumulativní poměr přibližně 4x. Kumulativní poměr by se asymptoticky zlepšil směrem k hodnotě 200x, pokud by nadále docházelo k více zálohám bez mazání.
Existují některé další drobné rozdíly:
- Příkaz „filesys show compression“ nezohledňuje plýtvání na úrovni kontejneru, a proto dále nadhodnocuje kompresní poměr.
- Příkaz „filesys show compression“ nebere v úvahu eliminaci duplikátů pomocí globální komprese, čímž podhodnocuje kompresní poměr.
- Příkaz „filesys show compression“ může poskytovat informace pro jednotlivé soubory nebo adresáře, zatímco příkaz „filesys show space“ je omezen na celý systém.
- Příkaz „filesys show compression“ zajišťuje rozdělení mezi globální a lokální kompresi, zatímco příkaz „filesys show space“ nikoli.
ODKAZY
- Proč se kompresní poměry liší pro příkazy „filesys show space“ a „vtl tape show summary“?
Kompresní poměr zobrazený v části „vtl tape show summary“ má odpovídat příkazu „filesys show compression /backup/vtc“.
Obecněji řečeno, tento příkaz VTL může mít volitelný filtr pro výběr podmnožiny páskových kazet a komprese by měla odpovídat příkazu „filesys show compression“ u této podmnožiny kazet.
Kvůli chybě v kódu uživatelského rozhraní VTL je však komprese vykázaná příkazem „vtl tape show summary“ chybná. Jedná se o známý problém, který je vyřešen ve verzi 4.5.0.0.
- Proč příkaz „filesys show compression last 24 hours“ neodpovídá očekávání pro VTL?
V případě VTL výstup příkazů, jako je například „filesys show compression last 24 hours“, často nesplní očekávání založená na jiných zdrojích, jako je například u příkazu „system show performance“.
K problému dochází kvůli nesrovnalostem v příkazu „filesys show compression“ (fsc). Obecně platí, že příkaz „filesys show compression“ vykazuje kumulativní statistiky ve vybraných souborech. Kvalifikátor „last 24 hours“ vybere soubory, které byly aktualizovány za posledních 24 hodin. Statistiky se stále kumulují od doby, kdy byl soubor vytvořen nebo naposledy zkrácen na nulovou velikost. Pokud byl tedy soubor připojen za posledních 24 hodin, příkaz „filesys show compression last 24 hours“ zobrazí jeho kumulativní statistiky za dobu před 24 hodinami.
V prostředích jiných než VTL se záložní soubory zapisují pouze jednou, takže mezi aktualizovanými a vytvářenými soubory nedochází k velkým rozdílům. Pomocí VTL mohou být zálohy připojeny ke stávajícím páskovým souborům. Představte si například pásku o kapacitě 100 GB, která je zaplněna až z 50 GB. Pokud se k této pásce za posledních 24 hodin připojí 10 GB dat, příkaz „filesys show compression last 24 hours“ vykáže, že „původní bajty“ souboru zabírají 60 GB.
- Jak se vypočítává kumulativní kompresní poměr?
Jednotlivé kompresní poměry se nesčítají lineárně.
Předpokládejme, že komprese u první úplné zálohy je 2x a u druhé úplné zálohy 20x. Kumulativní komprese není (2+20)/2 nebo 11x, ale 2/(1/2+1/20) neboli 3,64x.
Obecně platí, že nižší kompresní poměry mají na kumulativní kompresní poměr větší vliv než vyšší.
Předpokládejme, že i-tá záloha má logickou velikost „si“ a kompresní poměr „ci“. Kumulativní kompresní poměr pro „k“ záloh pak můžete vypočítat následujícím způsobem:
C = (celková logická velikost)/(celkové využité místo)
celková logická velikost = s1 + s2 + … + sk
celkové využité místo = s1/c1 + s2/c2 + … + sk/ck
Logické velikosti jsou často zhruba stejné. V takovém případě se výše uvedený výpočet zjednoduší na následující:
Pokud je například první úplná záloha zkomprimována 3x a každá další úplná záloha 30x a doba uchovávání je 30 dnů, uživateli se zobrazí kumulativní komprese 30/(1/3 + 29/30) nebo 23x.
- Jak funguje komprese systému Data Domain?
Tato otázka je podrobně zodpovězena v samostatném článku znalostní databáze „Principy komprese systému Data Domain“ Data Domain: Principy komprese systému Data Domain
- Podporuje systém Data Domain multiplexování?
Multiplexovaná data ze zálohovací aplikace povedou k velmi špatné globální deduplikaci. Další informace naleznete v souvisejícím článku „Multiplexování v zálohovacím softwaru není podporováno“ Systém Data Domain: Multiplexování v zálohovacím softwaru.
- Proč replika adresáře typu 1 na 1 vykazuje lepší globální kompresi?
To je obvykle způsobeno variacemi v úrovni duplicitních segmentů zapsaných v systému:
-
Data uložená ve zdroji byla jednou deduplikována – proti předchozím datům uloženým ve zdroji.
-
Data odeslaná po síti byla jednou deduplikována – proti datům uloženým v replice.
-
Data uložená v replice byla deduplikována dvakrát, jednou, když byla data odeslána po síti, a podruhé, když se přijatá data zapsala do repliky.
Vzhledem k tomu, že proces deduplikace zanechává některé duplikáty, data, která byla deduplikována vícekrát, mají méně duplikátů. Data uložená ve zdroji a odeslaná přes síť se deduplikují jednou, takže jsou zhruba stejná, za předpokladu, že data uložená ve zdroji a replice jsou podobná. Data uložená v replice se deduplikují dvakrát, takže se lépe komprimují.
Čištění systému souborů odstraní většinu duplikátů. Proto by po spuštění čištění na zdroji a replice mělo být množství uložených dat přibližně stejné.
- Jaká je změna komprese při použití nastavení místní komprese lz, gzfast a gz?
filesys option set compression {none | lz | gzfast | gz}
Varování: Před změnou typu místní komprese je nutné systém souborů vypnout. Lze jej restartovat ihned po nastavení možnosti komprese.
Obecně je pořadí komprese následující:
Hrubý rozdíl je:
- lz na gzfast poskytuje ~ 15% lepší kompresi a spotřebovává 2x více kapacity procesoru
- lz na gz poskytuje ~30% lepší kompresi a spotřebovává 5x více kapacity procesoru
- gzfast na gz poskytuje ~10–15% lepší kompresi
Upozorňujeme, že změna místní komprese má vliv na nová data zapsaná do nástroje DataDomain Restorer po provedení změny. Stará data si zachovají svůj předchozí formát komprese až do dalšího cyklu čištění. Při dalším cyklu čištění se všechna stará data zkopírují do nového formátu komprese. To způsobí, že čištění bude probíhat mnohem déle a zabere více kapacity procesoru.
Pokud má systém zákazníka již málo kapacity procesoru, zejména pokud zákazník provádí zálohování a replikaci současně, může to oba procesy zpomalit. Zákazník může chtít explicitně naplánovat určitý čas pro provedení tohoto převodu.
Odkazy na články znalostní databáze:
Additional Information