Odstraňování problémů se špatným deduplikací a poměrem komprese souborů v nástrojích data Domain Restorers (DDR)
Summary: Odstraňování problémů se špatným deduplikací a poměrem komprese souborů v nástrojích data Domain Restorers (DDR)
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
Nástroje Data Domain Restorer (DDR) jsou navrženy tak, aby uchovávají velké množství logických (předem komprimovaných) dat za využití minimálního fyzického (postcompressed) místa na disku. Toho lze dosáhnout pomocí:
- Deduplikace pochycených dat za účelem odstranění duplicitních bloků dat, která jsou již uložena na disku DDR, a ponechává pouze jedinečná data.
- Komprese jedinečných dat před fyzickým zápisem dat na disk.
- Případ použití
- Jsou požívány typy dat
- Konfigurace zálohovací aplikace
- Paměť DDR rychle vyčerpá svou využitelnou kapacitu
- Dopad na výkon zálohování, obnovení nebo replikace
- Selhání DDR, které splňuje očekávání zákazníků
Cause
Cílem tohoto článku je projednat:
- Stručný přehled deduplikace a komprese dat na paměti DDR
- Jak určit celkový poměr komprese pro systém a jednotlivé soubory
- Faktory, které mohou vést ke snížení celkového poměru komprese
Resolution
Jak nástroj Data Domain Restorer uchytí nová data?
Kromě deduplikace/komprese nově příchozích dat modul DDR také vytváří strom segmentu pro každý spolkný soubor. Jedná se v podstatě o seznam segmentových otisků prstů, které tento soubor tvoří. Pokud paměť DDR musí soubor později načíst zpět, postupujte podle následujících pokynů:
Jak lze určit celkový kompresní poměr na DDR?
Celkové využití paměti DDR (a poměr komprese) lze zjistit pomocí příkazu "filesys show space". Například:
Active Tier:
GiB Resource Size GiB Avail GiB Use% Cleanable GiB*
---------------- -------- -------- --------- ---- --------------
/data: pre-comp - 115367.8 - - -
/data: post-comp 679 4.2 6242.4 551.8 92 % 202.5
/ddvar 49.2 9.1 37,6 20 % –
---------------- -------- -------- --------- ---- -------------- V tomto případě vidíme, že:
Factor Factor (GiB) Factor
(snížení %)
, ---------------- -------- --------- ----------- ---------- -------------
aktuální použité součásti služby Pre-Comp Post-Comp Local-Comp Total-Comp
(GiB):* 115367.8 6242.4 – 18,5x (94,6) <=== POZNÁMKA
:
Posledních 7 dní 42214,7 1863,2 11,0 x 2,1 x 22,7x (95,6)
Posledních 24 hodin, 4 924,8, 274,0, 8,8x 2,0 x 18,0x (94,4)
---------------- -------- --------- ----------- ---------- -------------
všeoce údaje o využití ddr jsou vypočítány následovně:
Container set 73fcacgpa763b48:b66f6a65133e6c73:
...
attrs.psize = 4718592 <=== Velikost kontejneru v bajtech
...
attrs.max_containers = 1546057 <=== Maximální možné kontejnery
attrs.free_containers = 125562 <=== Aktuálně volné kontejnery
attrs.used_containers = 1420495 <=== Aktuálně používané kontejnery
...
Viz:
Jak lze určit poměr deduplikace a komprese pro jednotlivé soubory, adresáře nebo adresářové struktury?
Když je soubor pochytáván, statistiky záznamů DDR o souboru, mezi které patří:
SE@DDVE60_JF## filesys show compression /data/zip1/backup/testfile
Total files: 1; bajty/storage_used: 2.9
Původní bajty: Globální komprimováno 3 242 460 364
: 1 113 584 070
místně komprimovaných: 1 130 871 915
meta-data: 4 772 672
Chcete-li hlásit statistiku celého stromu adresáře:
SE@DDVE60_JF## filesys zobrazí kompresi /data/ldap1/backup
Total files: 3; bajty/storage_used: 1.4
Originální bajty: Globální komprimováno 7 554 284 280
: 5 425 407 986
místně komprimovaných: 5 510 685 100
meta dat: 23 263 692
Upozorňujeme však, že používání těchto statistik má několik problémů:
Předem komprimované bajty nemusí nutně odpovídat předem komprimované/logické velikosti souboru. Místo toho se jedná o celkový počet bajtů zapisovaných do souboru za jeho životnost. V důsledku toho mohou být stávající soubory v určitých prostředích běžně přepisovány (například ty, které používají funkci virtuální páskové knihovny), a tento obrázek může být větší než logická velikost odpovídajících souborů.
Může zneužívání dat "špatné kvality" vést ke snížení celkového poměru komprese?
Ano – aby paměť DDR dosáhla dobrého celkového poměru komprimace pochycených dat, musí být schopna data vyděňovat a komprimovat. Existují různé typy dat, které mohou zabránit tomu, jak je popsáno níže:
Předkomprimovaná/předem šifrovaná data:
Jedná se o typy dat komprimovaných nebo šifrovaných v klientském systému nebo zálohovací aplikací. To může zahrnovat také soubory specifické pro aplikaci, které jsou navrženy komprimovány nebo šifrovány (například mediální soubory) a databázové soubory, které jsou komprimované nebo šifrované nebo vkládají binární objekty, například mediální soubory.
Vzhledem k tomu, jak algoritmus komprese nebo šifrování funguje, je relativně malá změna základních dat v souboru způsobuje změny v souboru . Klient může například obsahovat šifrovaný soubor o velikosti 100 Mb, v němž dochází ke změně velikosti 10 kB. Výsledný soubor je obvykle stejný před změnou a po úpravě kromě části 10 kB, která se změnila. Při použití šifrování se před úpravou a po úpravě změní pouze 10 kb nezašifrovaných dat, šifrovací algoritmus způsobí změnu celého obsahu souboru.
Pokud jsou tato data pravidelně upravena a pravidelně odesílána paměti DDR, tento efekt "ripple out" způsobí, že každá generace souboru bude vypadat odlišně od předchozích generací stejného souboru. Každá generace proto obsahuje jedinečnou sadu segmentů (a segmentových otisků prstů), takže vykazuje špatný poměr deduplikace.
Upozorňujeme také, že namísto předkomprimovaných souborů algoritmus lz pravděpodobně nebude schopen dále komprimovat segmentová data, takže data nelze před zápisem na disk komprimovat.
Obecně platí, že předkoprimování/předběžné šifrování způsobuje následující příčiny:
podobná sada segmentů (a otisků prstů).V případech, kdy by možná data odesílaná do paměti DDR neměla být zašifrována ani komprimována, může být nutné zakázat šifrování nebo kompresi na koncovém klientovi nebo v příslušné zálohovací aplikaci.
Potřebujete-li pomoc při kontrole, změně šifrování nebo nastavení komprese v rámci určité zálohy, klientské aplikace nebo operačního systému, obraťte se na příslušného poskytovatele podpory.
Mediální soubory:
Některé typy souborů obsahují předem nešifrovaná nebo předem zašifrovaná data. Například:
Soubory s vysokou "jedinečností":
Dosažení dobrého deduplikačního poměru závisí na paměti DDR, která několikrát zobrazuje stejnou sadu segmentů (a segmentů otisků prstů). Některé typy dat však obsahují pouze jedinečná transakční data, která záměrně obsahují "jedinečná" data.
Pokud jsou tyto soubory odeslány do paměti DDR, pak každá generace zálohy obsahuje jedinečnou sadu segmentů nebo segmentů otisků prstů, a v důsledku toho zaznamená snížený poměr deduplikace.
Příklady takových souborů:
Malé soubory:
Malé soubory způsobují při zápisu do paměti DDR různé problémy. Patří sem:
Nadměrné multiplexování zálohovacími aplikacemi:
Zálohovací aplikace lze nakonfigurovat tak, aby prováděly multiplexování dat napříč datovými proudy odesílajícími do zálohovacího zařízení, tj. data ze vstupních datových toků (to jsou různí klienti) je odesílána do zálohovacího zařízení v jediném datovém toku. Tato funkce se používá především při zápisu na fyzická pásková zařízení jako:
Kromě toho může být výkon obnovení nízký kvůli obnovení určitých dat klientů, které musí paměť DDR číst mnoho souborů nebo kontejnerů, kde je většina dat v souborech nebo kontejnerech nadbytečná v poměru k zálohování jiných klientů.
Zálohovací aplikace při zápisu do paměti DDR nesmí používat multiplex, jelikož aplikace DDR podporují vyšší počet příchozích proudů než fyzická pásková zařízení, přičemž každý datový proud může zapisovat proměnlivou rychlostí. V důsledku toho by mělo být multiplexování zálohovacími aplikacemi zakázáno. Pokud je po zakázání multiplexu ovlivněn výkon zálohování, potom:
Zálohování aplikací zasouvání nadměrných páskových popisovačů:
Některé zálohovací aplikace mohou do záložního datového toku vkládat opakované datové struktury označované jako "popisovače". Popisovače v rámci zálohy nereprezentují fyzická data, namísto toho se namísto toho používají jako indexační nebo polohový systém zálohovací aplikací.
V některých případech může zahrnutí popisovačů do záložního toku snížit poměr deduplikace, například:
Aby k tomuto problému nedocházelo, paměť DDR využívá technologii rozpoznání popisovačů, která umožňuje:
Aby však paměť DDR mohla tuto technologii plně využít, je důležité, aby správně rozpoznala popisovače vložené do záložních datových proudů. Paměť DDR vyhledá popisovače v závislosti na nastavení možnosti "typ popisovače", například:
SE@DDVE60_JF## filesys možnost show
Option Value
-------------------------------- --------
...
Auto typu
popisovače...
-------------------------------- --------Pokus je třeba tuto možnost nastavit na hodnotu "auto", protože to umožňuje paměti DDR automaticky odpovídat nejběžnějším typům popisovačů. Pokud systém spolká data pouze z jedné zálohovací aplikace, která vkládá popisovače, pak může být výhodou výkonu specifikace konkrétního typu popisovače, to je:
# filesys option set popisovač-type {auto | nw1 | cv1 | tsm1 | tsm2 | eti1 | fdr1 | hpdp1 | besr1 | ssrt1 | ism1 | bti1| none}
Viz:
U systémů, které příjem dat z aplikací, které používají zálohovací popisovače, ale které nerozpoznávají automatizovaná technologie zpracování popisovačů (například produkty ze softwaru BridgeHead), se obraťte na smluvního poskytovatele podpory, který poté může s podporou Data Domain určit požadovaná nastavení ddr za účelem zjištění nestandardní popisovače.
Příznaky , že paměť DDR přijímá data "nekvalitní":
V následující tabulce je uveden seznam očekávaných poměrů deduplikace a komprese pro různé typy dat uvedené výše. Tento seznam není vyčerpávající a může se samozřejmě vyskytnout určité odchylky v přesných datech, které se zobrazují na daném systému kvůli zatížení nebo datům, která paměť DDR pojme:
Existují na paměti DDR určité faktory, které mohou ovlivnit celkový poměr deduplikace?
Ano – existuje několik faktorů, které mohou způsobit uchování starých/superflousových dat na disku DDR, což způsobuje zvýšení postkomprimovaného (fyzického) místa na disku a pokles celkového poměru komprese. Tyto faktory jsou rozebrány níže.
Chyba pravidelného čištění systému souborů:
Čištění souborového systému je jediným způsobem, jak fyzicky odstranit stará/superflous data z disku, který již nejsou soubory na DDR odkazovány. V důsledku toho může uživatel ze systému odstranit několik souborů (způsobující pokles předkomprimovaného využití), ale nespustí se čištění (takže postcompressed/physical využití je vysoké). To by způsobilo pokles celkového poměru komprese.
Společnost Data Domain doporučuje naplánovat čištění v pravidelných intervalech následujícím způsobem:
Nadměrné množství starých snapshotů v systému:
Aplikace DDR mohou vytvářet snapshoty mTree, které představují obsah stromu mTree v okamžiku vytvoření snapshotu. Upozorňujeme však, že ponechání starých snapshotů v systému může způsobit zvýšení postkomprimovaného/fyzického využití a způsobit pokles celkového poměru komprese. Například:
Další informace o práci se snapshoty a plány snapshotů jsou k dispozici v následujícím článku: Data Domain – správa plánů snapshotů
Nadměrná prodleva replikace:
Nativní replikace systému Data Domain využívá buď protokol replikace, nebo snapshoty mTree (v závislosti na typu replikace) ke sledování, které soubory nebo data čekají na replikaci na vzdálenou DDR. Prodleva replikace je koncept selhání repliky za změnami zdrojové paměti DDR. K tomu může dojít z různých faktorů:
Pokud ddR mají vysoké využití a důvodem je pravděpodobně prodleva replikace, obraťte se na smluvního poskytovatele podpory, který vám poskytne další pomoc.
Dochází u paměti DDR ke změnám konfigurace nebo k určitým faktorům, které mohou zvýšit celkový poměr komprese?
Ano – odebrání nebo řešení problémů, které byly dříve popsány v tomto dokumentu, by mělo paměti DDR umožnit zobrazit zlepšení celkového poměru komprese v průběhu času. Na paměti DDR existují také různé faktory nebo pracovní zatížení, což může vést ke zvýšení poměru deduplikace. Obecně to znamená:
Ve výchozím nastavení komprimují soubory DDR zapisovává data na disk algoritmem lz . Jak již bylo zmíněno dříve, používá se lz , jelikož má relativně nízké režijní náklady z hlediska procesoru vyžadované ke kompresi nebo dekompresi, ale vykazuje přiměřenou efektivitu při zmenšení velikosti dat.
Je možné zvýšit agresivitu komprimovaného algoritmu a zajistit tak další úspory při postcompressed nebo využití pevného disku (a v důsledku toho se zvýší celkový kompresní poměr). Podporované algoritmy komprese, v pořadí účinnosti (od nízké po nejvyšší), jsou následující:
Podle výše uvedené tabulky je agresivnější algoritmus komprese vyžadováno více procesoru během komprese nebo dekomprese dat. Kvůli tomu by se změny agresivnějšího algoritmu měly provádět pouze na systémech, které se lehce načítají při normálním zatížení. Změna algoritmu u vytížených systémů může vést k extrémnímu snížení výkonu zálohování nebo obnovení a možné panice nebo restartování souborového systému (způsobující výpadek paměti DDR).
Další informace o změně typu komprese naleznete v následujícím článku: Dopad převodu na kompresi
GZ na systém Data Domain a dopad čištění výkonuVzhledem k možnému dopadu změny algoritmu komprese se doporučuje, aby zákazníci, kteří mají zájem o provedení tohoto postupu, kontaktovali svého smluvního poskytovatele podpory a mohli změnu dále projednat.
Použití fastcopy souborového systému:
Služby DDR umožňují rychlé zkopírování souboru (nebo stromu adresáře) pomocí příkazu "file system fastcopy". Tato funkce vytváří soubor naklonováním metadat stávajícího souboru (nebo skupiny souborů), takže zatímco nové soubory nejsou fyzicky připojeny k původnímu souboru, odkazují na stejná data na disku jako na původním souboru. To znamená, že bez ohledu na velikost původního souboru spotřebovává nový soubor na disku málo místa (protože se dokonale deduplikuje vůči stávajícím datům).
Výsledkem tohoto chování je, že při použití fastcopy systému souborů se rychle zvýší předkomprimovaná (logický) velikost dat na paměti DDR, ale postcompressed/fyzické využití DDR zůstává statické.
Například následující paměť DDR využívá následující využití (označující celkový poměr komprese ~1,8x):
Aktivní vrstva:
Velikost zdroje Gb Využito Gb Využito% Vyčistitelné giB*
---------------- -------- -------- --------- ---- --------------
/data: pre-comp - 12.0 - - -
/data: post-comp 71.5 6.8 64.7 10 % 0.0
/ddvar 49.2 1.1 45,6 2 % -
/ddvar/core 158.5 0.2 150.2 0 % -
---------------- -------- -------- --------- ---- --------------
Obsah obsahuje velký soubor (/data/1/backup/testfile):
!!! DDVE60_JF JSOU VAŠE DATA V OHROŽENÍ !!! # ls -al /data/aug1/backup/testfile-rw-r
--r-- 1 kořenový adresář 3221225472 29. července 204:20 /data/and1/backup/testfile
Soubor je několikrát
stažen:sysadmin@DDVE60_JF# filesys fastcopy source /data/zip1/backup/testfile destination /data/zip1/backup/testfile_copy1
sysadmin@DDVE60_JF# filesys fastcopy source /data /cg1/backup/testfile destination /data/etc1/backup/testfile_copy2
sysadmin@DDVE60_JF# filesys fastcopy source /data/and1/backup/testfile destination /data/etc1/backup/testfile_copy3
To způsobuje zvýšení předkomprimovaného využití pro malé změny postcompressed využití:
Aktivní vrstva:
GiB Resource Size Used GiB Avail GiB Use% Cleanable GiB*
---------------- -------- -------- --------- ---- --------------
/data: pre-comp - 21.0 - - -
/data: post-comp 71.5 6.8 64.7 10 % 0.0
/ddvar 49,2 1,1 45,6 2 % -
/ddvar/core 158,5 0,2 150,2 %–
---------------- -------- -------- --------- ---- --------------
A výsledkem ddr nyní ukazuje celkový kompresní poměr ~3,1x.
Jak je uvedeno výše, statistiky komprese kopií ukazují, že se dokonale vyhradí:
sysadmin@DDVE60_JF# filesys zobrazují kompresi /data/angel1/backup/testfile_copy1
Total: 1; bajty/storage_used: 21331976.1
Původní bajty: Globální komprimováno 3 242 460 364
: 0
místně komprimováno: 0
Meta-data: 152,
Funkci fastcopy nelze použít ke zlepšení celkového komprimačního poměru snížením fyzického využití ddr, ale může být příčinou vysokého celkového poměru komprese (zejména v prostředích, která značně využívají fastcopy, např. Avamar 6.x).
- Zálohovací aplikace odesílá data (tj. soubory) paměti DDR.
- Paměť DDR tyto soubory rozdělí na části velikosti 4–12 kb – každý blok je označen jako "segment".
- Paměť DDR generuje pro každý segment jedinečný otisk prstu (podobá se kontrolnímu součtu) v závislosti na datech obsažených v segmentu.
- Otisky nově doručených segmentů jsou porovnány s indexy disků v paměti DDR, aby bylo možné zjistit, zda paměť DDR již obsahuje segment se stejným otiskem.
- Pokud paměť DDR již obsahuje segment se stejnou čtečkou otisků prstů, odpovídající segment v nově doručených datech je duplikován a lze ho odstranit (deduplikace).
- Po odebrání všech duplicitních segmentů z nově doručených dat zůstanou pouze jedinečné nebo nové segmenty.
- Tyto jedinečné nebo nové segmenty jsou seskupeny do 128 kb "komprimovaných oblastí" a následně komprimovány (ve výchozím nastavení pomocí algoritmu lz ).
- Oblasti komprimované komprese jsou zabaleny do 4,5 Mb jednotek úložiště, které se označují jako "kontejnery", které se poté zapíšou na pevný disk.
Kromě deduplikace/komprese nově příchozích dat modul DDR také vytváří strom segmentu pro každý spolkný soubor. Jedná se v podstatě o seznam segmentových otisků prstů, které tento soubor tvoří. Pokud paměť DDR musí soubor později načíst zpět, postupujte podle následujících pokynů:
- Určete umístění stromu segmentu souborů.
- Přečtěte si strom segmentu a získejte seznam všech segmentových otisků prstů, které tvoří oblast čtení souborů.
- Pomocí indexů disku určete fyzické umístění (tj. kontejner) dat na disku.
- Přečtěte si data fyzického segmentu z základních kontejnerů na disku.
- K rekonstrukci souboru použijte data fyzických segmentů.
Jak lze určit celkový kompresní poměr na DDR?
Celkové využití paměti DDR (a poměr komprese) lze zjistit pomocí příkazu "filesys show space". Například:
Active Tier:
GiB Resource Size GiB Avail GiB Use% Cleanable GiB*
---------------- -------- -------- --------- ---- --------------
/data: pre-comp - 115367.8 - - -
/data: post-comp 679 4.2 6242.4 551.8 92 % 202.5
/ddvar 49.2 9.1 37,6 20 % –
---------------- -------- -------- --------- ---- -------------- V tomto případě vidíme, že:
- Předkoprimovaná nebo logická data uložená v paměti DDR: 11 5367,8 GB
- Postcompressed nebo fyzický prostor, který se používá na DDR: 6242,4 GB
- Celkový poměr komprese je 115367,8 / 6242,4 = 18,48x.
Factor Factor (GiB) Factor
(snížení %)
, ---------------- -------- --------- ----------- ---------- -------------
aktuální použité součásti služby Pre-Comp Post-Comp Local-Comp Total-Comp
(GiB):* 115367.8 6242.4 – 18,5x (94,6) <=== POZNÁMKA
:
Posledních 7 dní 42214,7 1863,2 11,0 x 2,1 x 22,7x (95,6)
Posledních 24 hodin, 4 924,8, 274,0, 8,8x 2,0 x 18,0x (94,4)
---------------- -------- --------- ----------- ---------- -------------
všeoce údaje o využití ddr jsou vypočítány následovně:
- Celková předkomprimovaná data: Součet předem komprimované (logické) velikosti všech souborů, které má paměť DDR v držení.
- Celková postcompressed data: Počet používáných "kontejnerů" na disku vynásobený 4,5 Mb (velikost jednoho kontejneru).
- Celková velikost postcompressed: Počet maximálních vytvořených "kontejnerů", které mají v systému k dispozici volné místo na disku.
Container set 73fcacgpa763b48:b66f6a65133e6c73:
...
attrs.psize = 4718592 <=== Velikost kontejneru v bajtech
...
attrs.max_containers = 1546057 <=== Maximální možné kontejnery
attrs.free_containers = 125562 <=== Aktuálně volné kontejnery
attrs.used_containers = 1420495 <=== Aktuálně používané kontejnery
...
Viz:
Velikost postcompu = 1546057 * 4718592 / 1 024 / 1 024 / 1 024 = 6 794,2 Gb
po použití = 1420495 * 4718592 / 1 024 / 1 024 / 1 024 = 6 242,4 Gb
po použití = 1420495 * 4718592 / 1 024 / 1 024 / 1 024 = 6 242,4 Gb
Jak lze určit poměr deduplikace a komprese pro jednotlivé soubory, adresáře nebo adresářové struktury?
Když je soubor pochytáván, statistiky záznamů DDR o souboru, mezi které patří:
- Předkoprimované (logické) bajty
- Velikost jedinečných segmentů po deduplikaci
- Velikost jedinečných segmentů po deduplikaci a kompresi
- Velikost metadat souboru (jedná se o strom segmentu atd.)
SE@DDVE60_JF## filesys show compression /data/zip1/backup/testfile
Total files: 1; bajty/storage_used: 2.9
Původní bajty: Globální komprimováno 3 242 460 364
: 1 113 584 070
místně komprimovaných: 1 130 871 915
meta-data: 4 772 672
Chcete-li hlásit statistiku celého stromu adresáře:
SE@DDVE60_JF## filesys zobrazí kompresi /data/ldap1/backup
Total files: 3; bajty/storage_used: 1.4
Originální bajty: Globální komprimováno 7 554 284 280
: 5 425 407 986
místně komprimovaných: 5 510 685 100
meta dat: 23 263 692
Upozorňujeme však, že používání těchto statistik má několik problémů:
- Statistiky se generují v době použití souborů nebo dat a následující informace se neaktualizují. Vzhledem k tomu, jak paměť DDR funguje, zneužívá nové soubory nebo smazání souborů odkazujících na stejná data atd., může změnit způsob, jakým se soubor v průběhu času deduplikuje, což může způsobit, že tyto statistiky budou zastaralé.
- Kromě toho mohou některé případy použití na paměti DDR (například rychlé kopírování souboru a následné odstranění původního souboru) způsobit, že tyto statistiky budou zavádějící nebo nesprávné.
Předem komprimované bajty nemusí nutně odpovídat předem komprimované/logické velikosti souboru. Místo toho se jedná o celkový počet bajtů zapisovaných do souboru za jeho životnost. V důsledku toho mohou být stávající soubory v určitých prostředích běžně přepisovány (například ty, které používají funkci virtuální páskové knihovny), a tento obrázek může být větší než logická velikost odpovídajících souborů.
Může zneužívání dat "špatné kvality" vést ke snížení celkového poměru komprese?
Ano – aby paměť DDR dosáhla dobrého celkového poměru komprimace pochycených dat, musí být schopna data vyděňovat a komprimovat. Existují různé typy dat, které mohou zabránit tomu, jak je popsáno níže:
Předkomprimovaná/předem šifrovaná data:
Jedná se o typy dat komprimovaných nebo šifrovaných v klientském systému nebo zálohovací aplikací. To může zahrnovat také soubory specifické pro aplikaci, které jsou navrženy komprimovány nebo šifrovány (například mediální soubory) a databázové soubory, které jsou komprimované nebo šifrované nebo vkládají binární objekty, například mediální soubory.
Vzhledem k tomu, jak algoritmus komprese nebo šifrování funguje, je relativně malá změna základních dat v souboru způsobuje změny v souboru . Klient může například obsahovat šifrovaný soubor o velikosti 100 Mb, v němž dochází ke změně velikosti 10 kB. Výsledný soubor je obvykle stejný před změnou a po úpravě kromě části 10 kB, která se změnila. Při použití šifrování se před úpravou a po úpravě změní pouze 10 kb nezašifrovaných dat, šifrovací algoritmus způsobí změnu celého obsahu souboru.
Pokud jsou tato data pravidelně upravena a pravidelně odesílána paměti DDR, tento efekt "ripple out" způsobí, že každá generace souboru bude vypadat odlišně od předchozích generací stejného souboru. Každá generace proto obsahuje jedinečnou sadu segmentů (a segmentových otisků prstů), takže vykazuje špatný poměr deduplikace.
Upozorňujeme také, že namísto předkomprimovaných souborů algoritmus lz pravděpodobně nebude schopen dále komprimovat segmentová data, takže data nelze před zápisem na disk komprimovat.
Obecně platí, že předkoprimování/předběžné šifrování způsobuje následující příčiny:
- Nešifrovaná data: Slabý poměr deduplikace, ale přijatelný poměr komprese
- Předem primovaná data: Slabý poměr deduplikace a slabý poměr komprese
podobná sada segmentů (a otisků prstů).V případech, kdy by možná data odesílaná do paměti DDR neměla být zašifrována ani komprimována, může být nutné zakázat šifrování nebo kompresi na koncovém klientovi nebo v příslušné zálohovací aplikaci.
Potřebujete-li pomoc při kontrole, změně šifrování nebo nastavení komprese v rámci určité zálohy, klientské aplikace nebo operačního systému, obraťte se na příslušného poskytovatele podpory.
Mediální soubory:
Některé typy souborů obsahují předem nešifrovaná nebo předem zašifrovaná data. Například:
- Soubory PDF
- Některé zvukové soubory (mp3, wma, ogg a tak dále)
- Videosoubory (avi, mkv a tak dále)
- Soubory obrázků (png, bmp, jpeg atd.)
- Soubory specifické pro aplikace (Microsoft Office, Open Office, Libre Office atd.)
Soubory s vysokou "jedinečností":
Dosažení dobrého deduplikačního poměru závisí na paměti DDR, která několikrát zobrazuje stejnou sadu segmentů (a segmentů otisků prstů). Některé typy dat však obsahují pouze jedinečná transakční data, která záměrně obsahují "jedinečná" data.
Pokud jsou tyto soubory odeslány do paměti DDR, pak každá generace zálohy obsahuje jedinečnou sadu segmentů nebo segmentů otisků prstů, a v důsledku toho zaznamená snížený poměr deduplikace.
Příklady takových souborů:
- Protokoly databázových transakcí (například protokoly archivu Oracle).
- Protokoly transakcí Microsoft Exchange
Malé soubory:
Malé soubory způsobují při zápisu do paměti DDR různé problémy. Patří sem:
- Metadata jsou zaměněná – paměť DDR začne ve srovnání s fyzickými daty pojmout vyšší, než očekávané množství metadat souboru.
- Špatné využití kontejneru – záměrně (z důvodu rozvržení segmentu Data Domain Stream Informed Nebo architektury SISL – nad rámec tohoto dokumentu) kontejner 4,5 Mb na disku uchovává data pouze z jednoho souboru. V důsledku zálohování jednoho souboru o velikosti 10 kb například dojde k zápisu alespoň jednoho úplného kontejneru o velikosti 4,5 Mb pro daný soubor. To může znamenat, že paměť DDR v těchto souborech využívá výrazně více postcompressed (fyzického) místa než odpovídající množství zálohovaných (logických) dat, což vede k negativnímu celkovému poměru komprese.
- Slabý poměr deduplikace – Soubory, které jsou menší než 4 kb (minimální podporovaná velikost segmentu na paměti DDR), sestávají z jednoho segmentu, který je polstrovaný do 4 kB. Tyto segmenty nejsou deduplikovány, ale namísto toho se zapisují přímo na disk. To může způsobit, že paměť DDR pojme více kopií stejného segmentu (vnímá se jako duplicitní segmenty).
- Špatné zálohování, obnovení nebo čistý výkon – Při přesunu z jednoho souboru do druhého (protože kontext používaných metadat musí být přepnut, dochází během zálohování, obnovy nebo čištění) k velkým zátěžem.
- Dopad na čistý výkon při používání malých souborů byl do míry zmírněny zavedením fyzického čištění nebo garbage collection v systému DDOS 5.5 a novějším.
- Čištění se pokusí "vrátit" špatné využití kontejneru agregací dat z kontejnerů s nízkým využitím do pevněji zaplněných kontejnerů během fáze kopírování.
- Pokusy o odstranění příliš duplicitních segmentů během fáze kopírování.
Nadměrné multiplexování zálohovacími aplikacemi:
Zálohovací aplikace lze nakonfigurovat tak, aby prováděly multiplexování dat napříč datovými proudy odesílajícími do zálohovacího zařízení, tj. data ze vstupních datových toků (to jsou různí klienti) je odesílána do zálohovacího zařízení v jediném datovém toku. Tato funkce se používá především při zápisu na fyzická pásková zařízení jako:
- Fyzické páskové zařízení může podporovat pouze jeden příchozí tok zápisu.
- Zálohovací aplikace musí udržovat dostatečnou propustnost páskového zařízení, aby se zabránilo spouštění, zastavení nebo převinutí pásky (označovaných také jako lepicí páskové páskové zařízení) – to je snazší, pokud datový proud přejde do páskového zařízení obsahuje data načtená z více než jednoho klienta.
Kromě toho může být výkon obnovení nízký kvůli obnovení určitých dat klientů, které musí paměť DDR číst mnoho souborů nebo kontejnerů, kde je většina dat v souborech nebo kontejnerech nadbytečná v poměru k zálohování jiných klientů.
Zálohovací aplikace při zápisu do paměti DDR nesmí používat multiplex, jelikož aplikace DDR podporují vyšší počet příchozích proudů než fyzická pásková zařízení, přičemž každý datový proud může zapisovat proměnlivou rychlostí. V důsledku toho by mělo být multiplexování zálohovacími aplikacemi zakázáno. Pokud je po zakázání multiplexu ovlivněn výkon zálohování, potom:
- U zálohovacích aplikací pomocí protokolů CIFS, NFS nebo OST (DDBoost) by měl být zvýšen jejich počet datových proudů zápisu (aby bylo možné v paměti DDR zapsat více souborů souběžně).
- Prostředí využívající VTL by měla do paměti DDR přidat další disky, jelikož každý disk podporuje další paralelní datový tok zápisu.
Zálohování aplikací zasouvání nadměrných páskových popisovačů:
Některé zálohovací aplikace mohou do záložního datového toku vkládat opakované datové struktury označované jako "popisovače". Popisovače v rámci zálohy nereprezentují fyzická data, namísto toho se namísto toho používají jako indexační nebo polohový systém zálohovací aplikací.
V některých případech může zahrnutí popisovačů do záložního toku snížit poměr deduplikace, například:
- V první generaci zálohování bylo 12 kb dat, která byla souvislá – paměť DDR ji rozpoznala jako jeden segment.
- Ve druhé generaci zálohy je však stejná 12 kB dat rozdělena zahrnutím popisovače zálohy, která může být reprezentována 6 kB dat, popisovačem zálohy a 6 kb dat.
- V důsledku toho se segmenty vytvořené během druhé generace zálohy neshodují s segmenty vytvořenými během první generace zálohy, proto se nevydá správně.
Aby k tomuto problému nedocházelo, paměť DDR využívá technologii rozpoznání popisovačů, která umožňuje:
- Zálohujte popisovače, které mají být při spolknutí zálohy transparentně odebrány ze záložního datového proudu.
- Zálohování popisovačů k opětovnému vložení do záložního datového proudu během obnovení zálohy
Aby však paměť DDR mohla tuto technologii plně využít, je důležité, aby správně rozpoznala popisovače vložené do záložních datových proudů. Paměť DDR vyhledá popisovače v závislosti na nastavení možnosti "typ popisovače", například:
SE@DDVE60_JF## filesys možnost show
Option Value
-------------------------------- --------
...
Auto typu
popisovače...
-------------------------------- --------Pokus je třeba tuto možnost nastavit na hodnotu "auto", protože to umožňuje paměti DDR automaticky odpovídat nejběžnějším typům popisovačů. Pokud systém spolká data pouze z jedné zálohovací aplikace, která vkládá popisovače, pak může být výhodou výkonu specifikace konkrétního typu popisovače, to je:
# filesys option set popisovač-type {auto | nw1 | cv1 | tsm1 | tsm2 | eti1 | fdr1 | hpdp1 | besr1 | ssrt1 | ism1 | bti1| none}
Viz:
- Jakékoli výhody pro výkon při výběru konkrétního typu popisovače jsou pravděpodobně minimální.
- Výběr nesprávného typu popisovače může vést k výraznému snížení kvality zálohování nebo obnovení výkonu a poměru deduplikace.
U systémů, které příjem dat z aplikací, které používají zálohovací popisovače, ale které nerozpoznávají automatizovaná technologie zpracování popisovačů (například produkty ze softwaru BridgeHead), se obraťte na smluvního poskytovatele podpory, který poté může s podporou Data Domain určit požadovaná nastavení ddr za účelem zjištění nestandardní popisovače.
Příznaky , že paměť DDR přijímá data "nekvalitní":
V následující tabulce je uveden seznam očekávaných poměrů deduplikace a komprese pro různé typy dat uvedené výše. Tento seznam není vyčerpávající a může se samozřejmě vyskytnout určité odchylky v přesných datech, které se zobrazují na daném systému kvůli zatížení nebo datům, která paměť DDR pojme:
| Globální komprese | Místní komprese | Pravděpodobná příčina |
| Nízká (1x– 4x) | Nízká (1x– 1,5x) | Předkoprimovaná nebo šifrovaná data |
| Nízká (1x– 2x) | Vysoké (>2x) | Jedinečná, ale komprimovatelná data, například protokoly archivu databáze |
| Nízká (2x– 5x) | Vysoký (>1,5x) | Nezjištěné popisovače, vysoká rychlost změny dat nebo multiplexování streamování. |
| Vysoký (>10x) | Nízká (<1,5x) | Zálohování stejných komprimovaných nebo šifrovaných dat. Jedná se o neobvyklé jed. |
Existují na paměti DDR určité faktory, které mohou ovlivnit celkový poměr deduplikace?
Ano – existuje několik faktorů, které mohou způsobit uchování starých/superflousových dat na disku DDR, což způsobuje zvýšení postkomprimovaného (fyzického) místa na disku a pokles celkového poměru komprese. Tyto faktory jsou rozebrány níže.
Chyba pravidelného čištění systému souborů:
Čištění souborového systému je jediným způsobem, jak fyzicky odstranit stará/superflous data z disku, který již nejsou soubory na DDR odkazovány. V důsledku toho může uživatel ze systému odstranit několik souborů (způsobující pokles předkomprimovaného využití), ale nespustí se čištění (takže postcompressed/physical využití je vysoké). To by způsobilo pokles celkového poměru komprese.
Společnost Data Domain doporučuje naplánovat čištění v pravidelných intervalech následujícím způsobem:
- Normální DDR: Jednou týdně
- Paměť DDR s využitím rozšířené retence: Jednou za dva týdny
Nadměrné množství starých snapshotů v systému:
Aplikace DDR mohou vytvářet snapshoty mTree, které představují obsah stromu mTree v okamžiku vytvoření snapshotu. Upozorňujeme však, že ponechání starých snapshotů v systému může způsobit zvýšení postkomprimovaného/fyzického využití a způsobit pokles celkového poměru komprese. Například:
- Strom MTree obsahuje mnoho souborů (takže předkomprimované využití je vysoké).
- Vytvoří se snapshot stromu MTree.
- Mnoho souborů je odstraněno (způsobuje pokles předkomprimovaného využití).
- Čištění systému souborů je spuštěno – upozorňujeme však, že minimální místo na pevném disku je uvolněno v podobě kopie odstraněných souborů ve snapshotu mTree, což znamená, že data odkazovaná těmito soubory nelze z disku odstranit.
- V důsledku postcompressed/fyzického využití zůstává vysoká
Další informace o práci se snapshoty a plány snapshotů jsou k dispozici v následujícím článku: Data Domain – správa plánů snapshotů
Nadměrná prodleva replikace:
Nativní replikace systému Data Domain využívá buď protokol replikace, nebo snapshoty mTree (v závislosti na typu replikace) ke sledování, které soubory nebo data čekají na replikaci na vzdálenou DDR. Prodleva replikace je koncept selhání repliky za změnami zdrojové paměti DDR. K tomu může dojít z různých faktorů:
- Jsou deaktivovány kontexty replikace
- Nedostatečná šířka pásma sítě mezi službami DDR
- Časté odpojování sítě.
Pokud ddR mají vysoké využití a důvodem je pravděpodobně prodleva replikace, obraťte se na smluvního poskytovatele podpory, který vám poskytne další pomoc.
Dochází u paměti DDR ke změnám konfigurace nebo k určitým faktorům, které mohou zvýšit celkový poměr komprese?
Ano – odebrání nebo řešení problémů, které byly dříve popsány v tomto dokumentu, by mělo paměti DDR umožnit zobrazit zlepšení celkového poměru komprese v průběhu času. Na paměti DDR existují také různé faktory nebo pracovní zatížení, což může vést ke zvýšení poměru deduplikace. Obecně to znamená:
- Snížení množství místa na pevném disku, které používají soubory na paměti DDR (například zvýšení agresivita algoritmu komprese používaného pamětí DDR)
- Náhlé zvýšení množství předkomprimovaných (logických) dat na paměti DDR bez odpovídajícího zvýšení postcompressed/fyzického využití
Ve výchozím nastavení komprimují soubory DDR zapisovává data na disk algoritmem lz . Jak již bylo zmíněno dříve, používá se lz , jelikož má relativně nízké režijní náklady z hlediska procesoru vyžadované ke kompresi nebo dekompresi, ale vykazuje přiměřenou efektivitu při zmenšení velikosti dat.
Je možné zvýšit agresivitu komprimovaného algoritmu a zajistit tak další úspory při postcompressed nebo využití pevného disku (a v důsledku toho se zvýší celkový kompresní poměr). Podporované algoritmy komprese, v pořadí účinnosti (od nízké po nejvyšší), jsou následující:
- Lz
- gzFast
- Gz
- lz ve srovnání s gzfast poskytuje přibližně o 15 % lepší kompresi a spotřebovává 2x procesor.
- lz ve srovnání s gz poskytuje přibližně 30 % lepší kompresi a spotřebovává 5x procesor.
- Možnost gzfast ve srovnání s gz poskytuje přibližně o 10–15 % lepší kompresi.
Podle výše uvedené tabulky je agresivnější algoritmus komprese vyžadováno více procesoru během komprese nebo dekomprese dat. Kvůli tomu by se změny agresivnějšího algoritmu měly provádět pouze na systémech, které se lehce načítají při normálním zatížení. Změna algoritmu u vytížených systémů může vést k extrémnímu snížení výkonu zálohování nebo obnovení a možné panice nebo restartování souborového systému (způsobující výpadek paměti DDR).
Další informace o změně typu komprese naleznete v následujícím článku: Dopad převodu na kompresi
GZ na systém Data Domain a dopad čištění výkonuVzhledem k možnému dopadu změny algoritmu komprese se doporučuje, aby zákazníci, kteří mají zájem o provedení tohoto postupu, kontaktovali svého smluvního poskytovatele podpory a mohli změnu dále projednat.
Použití fastcopy souborového systému:
Služby DDR umožňují rychlé zkopírování souboru (nebo stromu adresáře) pomocí příkazu "file system fastcopy". Tato funkce vytváří soubor naklonováním metadat stávajícího souboru (nebo skupiny souborů), takže zatímco nové soubory nejsou fyzicky připojeny k původnímu souboru, odkazují na stejná data na disku jako na původním souboru. To znamená, že bez ohledu na velikost původního souboru spotřebovává nový soubor na disku málo místa (protože se dokonale deduplikuje vůči stávajícím datům).
Výsledkem tohoto chování je, že při použití fastcopy systému souborů se rychle zvýší předkomprimovaná (logický) velikost dat na paměti DDR, ale postcompressed/fyzické využití DDR zůstává statické.
Například následující paměť DDR využívá následující využití (označující celkový poměr komprese ~1,8x):
Aktivní vrstva:
Velikost zdroje Gb Využito Gb Využito% Vyčistitelné giB*
---------------- -------- -------- --------- ---- --------------
/data: pre-comp - 12.0 - - -
/data: post-comp 71.5 6.8 64.7 10 % 0.0
/ddvar 49.2 1.1 45,6 2 % -
/ddvar/core 158.5 0.2 150.2 0 % -
---------------- -------- -------- --------- ---- --------------
Obsah obsahuje velký soubor (/data/1/backup/testfile):
!!! DDVE60_JF JSOU VAŠE DATA V OHROŽENÍ !!! # ls -al /data/aug1/backup/testfile-rw-r
--r-- 1 kořenový adresář 3221225472 29. července 204:20 /data/and1/backup/testfile
Soubor je několikrát
stažen:sysadmin@DDVE60_JF# filesys fastcopy source /data/zip1/backup/testfile destination /data/zip1/backup/testfile_copy1
sysadmin@DDVE60_JF# filesys fastcopy source /data /cg1/backup/testfile destination /data/etc1/backup/testfile_copy2
sysadmin@DDVE60_JF# filesys fastcopy source /data/and1/backup/testfile destination /data/etc1/backup/testfile_copy3
To způsobuje zvýšení předkomprimovaného využití pro malé změny postcompressed využití:
Aktivní vrstva:
GiB Resource Size Used GiB Avail GiB Use% Cleanable GiB*
---------------- -------- -------- --------- ---- --------------
/data: pre-comp - 21.0 - - -
/data: post-comp 71.5 6.8 64.7 10 % 0.0
/ddvar 49,2 1,1 45,6 2 % -
/ddvar/core 158,5 0,2 150,2 %–
---------------- -------- -------- --------- ---- --------------
A výsledkem ddr nyní ukazuje celkový kompresní poměr ~3,1x.
Jak je uvedeno výše, statistiky komprese kopií ukazují, že se dokonale vyhradí:
sysadmin@DDVE60_JF# filesys zobrazují kompresi /data/angel1/backup/testfile_copy1
Total: 1; bajty/storage_used: 21331976.1
Původní bajty: Globální komprimováno 3 242 460 364
: 0
místně komprimováno: 0
Meta-data: 152,
Funkci fastcopy nelze použít ke zlepšení celkového komprimačního poměru snížením fyzického využití ddr, ale může být příčinou vysokého celkového poměru komprese (zejména v prostředích, která značně využívají fastcopy, např. Avamar 6.x).
Affected Products
Data DomainProducts
Data DomainArticle Properties
Article Number: 000064270
Article Type: Solution
Last Modified: 16 Dec 2024
Version: 5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.