Data Domain: Komprese – často kladené otázky
Summary: Tento článek odpovídá na nejčastější otázky ohledně komprese. Systém Data Domain je nezávislý na datovém typu. Systém Data Domain používá kompresní algoritmy, které zálohují pouze jedinečná data – duplicitní vzory nebo vícenásobné zálohy se ukládají pouze jednou. ...
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Instructions
Obsah
- Využívají přírůstkové a úplné zálohy stejné místo na disku?
- Proč to udělat '
filesys show space" a "filesys show compression' zobrazit různá čísla? - Proč "
filesys show compression last 24 hours' neodpovídá očekáváním pro VTL? - Jak se počítá kumulativní kompresní poměr?
- Jak funguje komprese Data Domain?
- Podporuje systém Data Domain multiplexování?
- Proč replika adresáře 1:1 vykazuje lepší globální kompresi?
- Jaká je změna komprese při použití místního nastavení komprese lz, gzfast a gz?
Typická míra komprese je 20:1 po mnoho týdnů provádění denních a přírůstkových záloh. Datový typ ovlivňuje kompresní poměr - komprimované obrazové soubory, databáze a komprimované archivy (například .zip soubory) se nekomprimují dobře.
Využívají přírůstkové a úplné zálohy stejné místo na disku?
V ideálním případě by to tak bylo. V praxi využívá úplné zálohování o něco více místa než přírůstkové z následujících důvodů. Tyto důvody také vysvětlují, proč úplné zálohování po neprovedení změn dat stále spotřebovává kladné množství místa.
- Metadata zabírají přibližně 0,5 % logické velikosti zálohy. Předpokládejme, že:
- Logická velikost celého souboru je 100 GB
- Logická velikost přírůstku je 2 GB
- Přírůstková komprese na 1 GB
- ... pak plný zabere alespoň 1,5 GB
- Kompresní modul DD kvůli výkonu přepíše některé duplicitní datové segmenty. Čím horší je datová lokalita změn, tím více duplikátů se zapíše. Duplikáty jsou později uvolněny systémem souborů uvolňování paměti (GC). V některých případech se asi 2 % logické velikosti přepíší jako duplicitní. Za předpokladu této úrovně duplicit může celá trvat 1 GB (komprimovaná) + 0,5 GB (metadata) + 2 GB (duplikáty) = 3,5 GB. Množství zapsaných duplikátů lze řídit pomocí systémového parametru, ale obecně tento parametr v terénu neladíme.
- Segmentace dat se může mezi jednotlivými zálohami mírně lišit v závislosti na pořadí, ve kterém klient NFS odesílá data. Toto pořadí není pevně dané. Obecně platí, že segmentační algoritmus toleruje posuny a změnu pořadí. Vytváří však také některé "vynucené" segmenty, které jsou náchylné k posunům a změně pořadí. Obvykle je vynuceno asi 0,2 % segmentů, takže lze očekávat mnohem větší využití místa.
Proč to udělat 'filesys show space" a "filesys show compression' zobrazit různá čísla?
- '
filesys show space' poskytuje kompresní poměr založený na logické velikosti uložených dat a místě na disku využitém v době spuštění příkazu. - '
filesys show compression' poskytuje kompresní poměr na základě toho, jak byl každý soubor komprimován v době jeho vytvoření. - '
filesys show compression' se používá hlavně pro podporu a ladění. V případě odstranění souboru 'filesys show compression' nadhodnocuje kompresní poměr.
Předpokládejme například, že:
- První plná záloha má 2x kompresi
- Následná plná záloha bez jakýchkoli změn dat má 200x kompresi
- První úplná záloha je odstraněna.
Výstupem '
filesys show space' by vykazoval kompresní poměr 2x, zatímco 'filesys show compression' by vykazoval kompresní poměr 200x, protože jediný soubor, který nyní existuje, má při vytvoření kompresní poměr 200x.
Ve výše uvedeném příkladu se po druhé záloze '
filesys show space' by vykazoval kumulativní poměr asi 4x. Kumulativní poměr by se asymptoticky zlepšil směrem k 200x, pokud by pokračoval s více zálohami bez mazání.
Existují i další drobné rozdíly. Značka '
filesys show compression' příkaz:
- Nezohledňuje plýtvání na úrovni kontejneru, a proto dále nadhodnocuje kompresní poměr.
- Nezohledňuje eliminaci duplicit globální kompresí, čímž podceňuje kompresní poměr
- Může poskytovat informace pro jednotlivé soubory nebo adresáře, zatímco '
filesys show space" je omezen na celý systém - Poskytuje rozdělení mezi globální a místní kompresí, zatímco '
filesys show space" nemá
Proč "filesys show compression last 24 hours' neodpovídá očekáváním pro VTL?
Pro VTL je výstupem příkazů, jako je '
filesys show compression last 24 hours" často nesplňuje očekávání založená na jiných zdrojích, jako je "system show performance'.
K problému dochází kvůli zvláštnosti v '
filesys show compression'. Obecně zobrazuje kumulativní statistiky ve vybraných souborech. Kvalifikátor "posledních 24 hodin" vybere soubory, které byly aktualizovány za posledních 24 hodin. Statistiky se stále kumulují od doby, kdy byl soubor vytvořen nebo naposledy zkrácen na nulovou velikost. Pokud tedy byl soubor připojen v posledních 24 hodinách, 'filesys show compression last 24 hours' zobrazuje své kumulativní statistiky před posledními 24 hodinami.
Soubory zálohy v prostředích jiných než VTL se zapisují pouze jednou, takže mezi aktualizovanými a vytvořenými soubory nedochází k žádným nesrovnalostem. Pomocí VTL mohou být zálohy připojeny ke stávajícím páskovým souborům. Představte si například 100GB pásku, která je zaplněna až 50 GB. Pokud bylo k této pásce připojeno 10 GB dat za posledních 24 hodin, '
filesys show compression last 24 hours' zobrazí "původní bajty" souboru zapsané na 60 GB.
Jak se počítá kumulativní kompresní poměr?
Jednotlivé kompresní poměry se nesčítají lineárně.
Předpokládejme, že komprese na první plné záloze je 2x a na druhé plné záloze je 20x. Kumulativní komprese není
(2 + 20) / 2 = 11xAle 2 / (1/2 + 1/20) = 3.64x.
Obecně platí, že nižší kompresní poměry mají na kumulativní kompresní poměr větší vliv než vyšší.
Předpokládejme, že
ith Záloha má logickou velikost si a kompresní poměr ci. Poté se kumulativní kompresní poměr pro k Zálohy lze vypočítat následujícím způsobem:
C = (total logical size)/(total space used)
total logical size = s1 + s2 + .. + sk
total space used = s1/c1 + s2/c2 + ... + sk/ck
Logické velikosti jsou často zhruba stejné. V takovém případě se výše uvedený výpočet zjednoduší na následující:
C = k / (1/c1 + 1/c2 + ... + 1/ck)
Pokud například:
- První plná záloha má 3x kompresi
- Každé další plné má 30x kompresi
- Doba uchování je 30 dní.
Uživatel uvidí kumulativní kompresi 30 / (1/3 + 29/30)nebo 23x.
Jak funguje komprese Data Domain?
Tato otázka je podrobně zodpovězena v samostatném článku: Principy komprese systému Data Domain
Podporuje systém Data Domain multiplexování?
Multiplexovaná data ze zálohovací aplikace mají za následek velmi špatnou globální deduplikaci. Další informace najdete v tomto článku: Data Domain: Multiplexování v zálohovacím softwaru
Proč replika adresáře 1:1 vykazuje lepší globální kompresi?
To je obvykle způsobeno variacemi v úrovni duplicitních segmentů zapsaných v systému:
- Data uložená ve zdroji byla jednou deduplikována – oproti předchozím datům uloženým ve zdroji.
- Data odeslaná po drátě byla jednou deduplikována – proti datům uloženým v replice.
- Data uložená v replice byla deduplikována dvakrát, jednou, když byla data odeslána po síti, a podruhé, když se přijatá data zapsala do repliky.
Vzhledem k tomu, že proces deduplikace zanechává některé duplikáty, data, která byla deduplikována vícekrát, mají méně duplikátů. Data uložená ve zdroji a odeslaná přes síť se deduplikují jednou, takže jsou zhruba stejná, za předpokladu, že data uložená ve zdroji a replice jsou podobná. Data uložená v replice se deduplikují dvakrát, takže se lépe komprimují.
Čištění systému souborů odstraní většinu duplikátů. Proto by po spuštění čištění na zdroji a replice mělo být množství uložených dat přibližně stejné.
Jaká je změna komprese při použití lz, gzfasta gz nastavení lokální komprese?
Chcete-li změnit algoritmus místní komprese používaný v systému Data Domain, použijte následující příkaz:
filesys option set compression {none | lz | gzfast | gz}
Poznámka: Před změnou typu místní komprese je nutné vypnout systém souborů. Lze jej restartovat ihned po nastavení možnosti komprese.
Obecně je pořadí komprese následující:
lz < gzfast < gz
| Zadáním | Očekávaná sestava | Zatížení procesoru |
|---|---|---|
| žádné | 1ks | 0x |
| Lz | 2x | 1ks |
| gzfast | 2,5× | 2x |
| Gz | 3x | 5x |
Hrubý rozdíl je:
lz to gzfastposkytuje ~15% lepší kompresi a spotřebovává 2x CPUlz to gzposkytuje ~30% lepší kompresi a spotřebovává 5x CPUgzfast to gzposkytuje ~10-15% lepší kompresi
Upozorňujeme, že změna místní komprese nejprve ovlivní nová data zapsaná do systému Data Domain po provedení změny. Stará data si zachovají svůj předchozí formát komprese až do dalšího cyklu čištění. Další čisticí cyklus zkopíruje všechna stará data do nového formátu komprese. To způsobí, že čištění bude probíhat mnohem déle a zabere více kapacity procesoru.
Pokud má systém již málo procesoru, zejména pokud zálohování a replikace běží současně, může to zpomalit zálohy a. Zákazník může chtít explicitně naplánovat určitý čas pro provedení tohoto převodu.
Additional Information
Odkazy na znalosti:
Affected Products
Data DomainProducts
Data DomainArticle Properties
Article Number: 000022100
Article Type: How To
Last Modified: 24 Apr 2026
Version: 12
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.