Odstraňování problémů se špatným deduplikací a poměrem komprese souborů v nástrojích data Domain Restorers (DDR)

Summary: Odstraňování problémů se špatným deduplikací a poměrem komprese souborů v nástrojích data Domain Restorers (DDR)

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Nástroje Data Domain Restorer (DDR) jsou navrženy tak, aby uchovávají velké množství logických (předem komprimovaných) dat za využití minimálního fyzického (postcompressed) místa na disku. Toho lze dosáhnout pomocí:
  • Deduplikace pochycených dat za účelem odstranění duplicitních bloků dat, která jsou již uložena na disku DDR, a ponechává pouze jedinečná data.
  • Komprese jedinečných dat před fyzickým zápisem dat na disk.
Celkový komprimační poměr dat, která paměť DDR zvládne, se liší v závislosti na několika faktorech, jako jsou:
  • Případ použití
  • Jsou požívány typy dat
  • Konfigurace zálohovací aplikace
Při optimální konfiguraci dosahují ddR obvykle 10–20x celkový poměr komprese (a někdy mohou vykazovat vyšší poměry než je tento). Naopak, v některých prostředích může být celkový poměr komprese nižší, než je poměr, který může způsobit:
  • Paměť DDR rychle vyčerpá svou využitelnou kapacitu
  • Dopad na výkon zálohování, obnovení nebo replikace
  • Selhání DDR, které splňuje očekávání zákazníků

Cause

Cílem tohoto článku je projednat:
  • Stručný přehled deduplikace a komprese dat na paměti DDR
  • Jak určit celkový poměr komprese pro systém a jednotlivé soubory
  • Faktory, které mohou vést ke snížení celkového poměru komprese

Resolution

Jak nástroj Data Domain Restorer uchytí nová data?
  • Zálohovací aplikace odesílá data (tj. soubory) paměti DDR.
  • Paměť DDR tyto soubory rozdělí na části velikosti 4–12 kb – každý blok je označen jako "segment".
  • Paměť DDR generuje pro každý segment jedinečný otisk prstu (podobá se kontrolnímu součtu) v závislosti na datech obsažených v segmentu.
  • Otisky nově doručených segmentů jsou porovnány s indexy disků v paměti DDR, aby bylo možné zjistit, zda paměť DDR již obsahuje segment se stejným otiskem.
  • Pokud paměť DDR již obsahuje segment se stejnou čtečkou otisků prstů, odpovídající segment v nově doručených datech je duplikován a lze ho odstranit (deduplikace).
  • Po odebrání všech duplicitních segmentů z nově doručených dat zůstanou pouze jedinečné nebo nové segmenty.
  • Tyto jedinečné nebo nové segmenty jsou seskupeny do 128 kb "komprimovaných oblastí" a následně komprimovány (ve výchozím nastavení pomocí algoritmu lz ).
  • Oblasti komprimované komprese jsou zabaleny do 4,5 Mb jednotek úložiště, které se označují jako "kontejnery", které se poté zapíšou na pevný disk.
Jak paměť DDR sleduje, které segmenty tvoří určitý soubor?

Kromě deduplikace/komprese nově příchozích dat modul DDR také vytváří strom segmentu pro každý spolkný soubor. Jedná se v podstatě o seznam segmentových otisků prstů, které tento soubor tvoří. Pokud paměť DDR musí soubor později načíst zpět, postupujte podle následujících pokynů:
  • Určete umístění stromu segmentu souborů.
  • Přečtěte si strom segmentu a získejte seznam všech segmentových otisků prstů, které tvoří oblast čtení souborů.
  • Pomocí indexů disku určete fyzické umístění (tj. kontejner) dat na disku.
  • Přečtěte si data fyzického segmentu z základních kontejnerů na disku.
  • K rekonstrukci souboru použijte data fyzických segmentů.
Stromy segmentů souborů jsou také uloženy v kontejnerech o velikosti 4,5 Mb na disku a představují většinu jednotlivých souborů "metadata" (viz dále v tomto článku).

Jak lze určit celkový kompresní poměr na DDR?

Celkové využití paměti DDR (a poměr komprese) lze zjistit pomocí příkazu "filesys show space". Například:

Active Tier:
GiB Resource Size GiB Avail GiB Use% Cleanable GiB*
---------------- -------- -------- --------- ---- --------------
/data: pre-comp - 115367.8 - - -
/data: post-comp 679 4.2 6242.4 551.8 92 % 202.5
/ddvar 49.2 9.1 37,6 20 % –


---------------- -------- -------- --------- ---- -------------- V tomto případě vidíme, že:
  • Předkoprimovaná nebo logická data uložená v paměti DDR: 11 5367,8 GB
  • Postcompressed nebo fyzický prostor, který se používá na DDR: 6242,4 GB
  • Celkový poměr komprese je 115367,8 / 6242,4 = 18,48x.
Výstup příkazu "filesys show compression" potvrzuje uložená data, využité místo a poměr komprese. Například:

                   Factor Factor (GiB) Factor
(snížení %)
, ---------------- -------- --------- ----------- ---------- -------------
aktuální použité součásti služby Pre-Comp Post-Comp Local-Comp Total-Comp
(GiB):*   115367.8 6242.4 – 18,5x (94,6) <=== POZNÁMKA
:                                                                          
  Posledních 7 dní 42214,7 1863,2 11,0 x 2,1 x 22,7x (95,6)
  Posledních 24 hodin, 4 924,8, 274,0, 8,8x 2,0 x 18,0x (94,4)
---------------- -------- --------- ----------- ---------- -------------


všeoce údaje o využití ddr jsou vypočítány následovně:
  • Celková předkomprimovaná data: Součet předem komprimované (logické) velikosti všech souborů, které má paměť DDR v držení.
  • Celková postcompressed data: Počet používáných "kontejnerů" na disku vynásobený 4,5 Mb (velikost jednoho kontejneru).
  • Celková velikost postcompressed: Počet maximálních vytvořených "kontejnerů", které mají v systému k dispozici volné místo na disku.
Statistiky týkající se maximálního využití kontejnerů jsou k dispozici v automatických podporouch. Například:

Container set 73fcacgpa763b48:b66f6a65133e6c73:
...
    attrs.psize = 4718592 <=== Velikost kontejneru v bajtech
...
    attrs.max_containers = 1546057 <=== Maximální možné kontejnery
attrs.free_containers = 125562 <=== Aktuálně volné kontejnery
attrs.used_containers = 1420495 <=== Aktuálně používané kontejnery
...


Viz:
 
Velikost postcompu = 1546057 * 4718592 / 1 024 / 1 024 / 1 024 = 6 794,2 Gb
po použití = 1420495 * 4718592 / 1 024 / 1 024 / 1 024 = 6 242,4 Gb

Jak lze určit poměr deduplikace a komprese pro jednotlivé soubory, adresáře nebo adresářové struktury?

Když je soubor pochytáván, statistiky záznamů DDR o souboru, mezi které patří:
  • Předkoprimované (logické) bajty
  • Velikost jedinečných segmentů po deduplikaci
  • Velikost jedinečných segmentů po deduplikaci a kompresi
  • Velikost metadat souboru (jedná se o strom segmentu atd.)
Některé z těchto statistik je možné vypsat pomocí příkazu "filesys show compression [path]", například pro hlášení statistik jednoho souboru:

SE@DDVE60_JF## filesys show compression /data/zip1/backup/testfile
Total files: 1;  bajty/storage_used: 2.9
Původní bajty:        Globální komprimováno 3 242 460 364
:        1 113 584 070
místně komprimovaných:        1 130 871 915
meta-data:            4 772 672


Chcete-li hlásit statistiku celého stromu adresáře:

SE@DDVE60_JF## filesys zobrazí kompresi /data/ldap1/backup
Total files: 3;  bajty/storage_used: 1.4
Originální bajty:        Globální komprimováno 7 554 284 280
:        5 425 407 986
místně komprimovaných:        5 510 685 100
meta dat:           23 263 692


Upozorňujeme však, že používání těchto statistik má několik problémů:
  • Statistiky se generují v době použití souborů nebo dat a následující informace se neaktualizují. Vzhledem k tomu, jak paměť DDR funguje, zneužívá nové soubory nebo smazání souborů odkazujících na stejná data atd., může změnit způsob, jakým se soubor v průběhu času deduplikuje, což může způsobit, že tyto statistiky budou zastaralé.
  • Kromě toho mohou některé případy použití na paměti DDR (například rychlé kopírování souboru a následné odstranění původního souboru) způsobit, že tyto statistiky budou zavádějící nebo nesprávné.
V důsledku toho by tyto obrázky měly být považovány pouze za odhady.

Předem komprimované bajty nemusí nutně odpovídat předem komprimované/logické velikosti souboru. Místo toho se jedná o celkový počet bajtů zapisovaných do souboru za jeho životnost. V důsledku toho mohou být stávající soubory v určitých prostředích běžně přepisovány (například ty, které používají funkci virtuální páskové knihovny), a tento obrázek může být větší než logická velikost odpovídajících souborů.

Může zneužívání dat "špatné kvality" vést ke snížení celkového poměru komprese?

Ano – aby paměť DDR dosáhla dobrého celkového poměru komprimace pochycených dat, musí být schopna data vyděňovat a komprimovat. Existují různé typy dat, které mohou zabránit tomu, jak je popsáno níže:

Předkomprimovaná/předem šifrovaná data:

Jedná se o typy dat komprimovaných nebo šifrovaných v klientském systému nebo zálohovací aplikací. To může zahrnovat také soubory specifické pro aplikaci, které jsou navrženy komprimovány nebo šifrovány (například mediální soubory) a databázové soubory, které jsou komprimované nebo šifrované nebo vkládají binární objekty, například mediální soubory.

Vzhledem k tomu, jak algoritmus komprese nebo šifrování funguje, je relativně malá změna základních dat v souboru způsobuje změny v souboru . Klient může například obsahovat šifrovaný soubor o velikosti 100 Mb, v němž dochází ke změně velikosti 10 kB. Výsledný soubor je obvykle stejný před změnou a po úpravě kromě části 10 kB, která se změnila. Při použití šifrování se před úpravou a po úpravě změní pouze 10 kb nezašifrovaných dat, šifrovací algoritmus způsobí změnu celého obsahu souboru.

Pokud jsou tato data pravidelně upravena a pravidelně odesílána paměti DDR, tento efekt "ripple out" způsobí, že každá generace souboru bude vypadat odlišně od předchozích generací stejného souboru. Každá generace proto obsahuje jedinečnou sadu segmentů (a segmentových otisků prstů), takže vykazuje špatný poměr deduplikace.

Upozorňujeme také, že namísto předkomprimovaných souborů algoritmus lz pravděpodobně nebude schopen dále komprimovat segmentová data, takže data nelze před zápisem na disk komprimovat.

Obecně platí, že předkoprimování/předběžné šifrování způsobuje následující příčiny:
  • Nešifrovaná data: Slabý poměr deduplikace, ale přijatelný poměr komprese
  • Předem primovaná data: Slabý poměr deduplikace a slabý poměr komprese
Když je stejná (beze změny) předkomprimovaná/předem šifrovaná data vícekrát spolknuta pamětí DDR, deduplikační poměr dat se zlepšuje, protože se navzdory použití komprimačních nebo šifrovacích algoritmů zobrazí během každé zálohy

podobná sada segmentů (a otisků prstů).V případech, kdy by možná data odesílaná do paměti DDR neměla být zašifrována ani komprimována, může být nutné zakázat šifrování nebo kompresi na koncovém klientovi nebo v příslušné zálohovací aplikaci.

Potřebujete-li pomoc při kontrole, změně šifrování nebo nastavení komprese v rámci určité zálohy, klientské aplikace nebo operačního systému, obraťte se na příslušného poskytovatele podpory.

Mediální soubory:

Některé typy souborů obsahují předem nešifrovaná nebo předem zašifrovaná data. Například:
  • Soubory PDF
  • Některé zvukové soubory (mp3, wma, ogg a tak dále)
  • Videosoubory (avi, mkv a tak dále)
  • Soubory obrázků (png, bmp, jpeg atd.)
  • Soubory specifické pro aplikace (Microsoft Office, Open Office, Libre Office atd.)
Data v souborech jsou komprimována nebo šifrována pomocí kodeku souboru a v důsledku toho dochází při spolknutí na paměť DDR ke stejným problémům, jak je popsáno výše pro předkomprimovaná nebo předem zašifrovaná data.

Soubory s vysokou "jedinečností":

Dosažení dobrého deduplikačního poměru závisí na paměti DDR, která několikrát zobrazuje stejnou sadu segmentů (a segmentů otisků prstů). Některé typy dat však obsahují pouze jedinečná transakční data, která záměrně obsahují "jedinečná" data.

Pokud jsou tyto soubory odeslány do paměti DDR, pak každá generace zálohy obsahuje jedinečnou sadu segmentů nebo segmentů otisků prstů, a v důsledku toho zaznamená snížený poměr deduplikace.

Příklady takových souborů:
  • Protokoly databázových transakcí (například protokoly archivu Oracle).
  • Protokoly transakcí Microsoft Exchange
První záloha "nového" klienta na DDR může také způsobit tento problém (protože data nebyla dříve pozorována ddr, a proto jsou odpovídající segmenty nebo segmenty otisků prstů v záloze jedinečné). V průběhu času se však s tím, že se do paměti DDR odesílá i budoucí generace stejné zálohy, se deduplikační poměr záloh zlepší, protože méně segmentů v každé nové záloze je jedinečné. Z tohoto důvodu se očekává, že celková deduplikace nebo poměr komprese u nově nainstalované paměti DDR, která dostává většinou nové zálohy, jsou zhoršené, ale postupem času se zlepší.

Malé soubory:

Malé soubory způsobují při zápisu do paměti DDR různé problémy. Patří sem:
  • Metadata jsou zaměněná – paměť DDR začne ve srovnání s fyzickými daty pojmout vyšší, než očekávané množství metadat souboru.
  • Špatné využití kontejneru – záměrně (z důvodu rozvržení segmentu Data Domain Stream Informed Nebo architektury SISL – nad rámec tohoto dokumentu) kontejner 4,5 Mb na disku uchovává data pouze z jednoho souboru. V důsledku zálohování jednoho souboru o velikosti 10 kb například dojde k zápisu alespoň jednoho úplného kontejneru o velikosti 4,5 Mb pro daný soubor. To může znamenat, že paměť DDR v těchto souborech využívá výrazně více postcompressed (fyzického) místa než odpovídající množství zálohovaných (logických) dat, což vede k negativnímu celkovému poměru komprese.
  • Slabý poměr deduplikace – Soubory, které jsou menší než 4 kb (minimální podporovaná velikost segmentu na paměti DDR), sestávají z jednoho segmentu, který je polstrovaný do 4 kB. Tyto segmenty nejsou deduplikovány, ale namísto toho se zapisují přímo na disk. To může způsobit, že paměť DDR pojme více kopií stejného segmentu (vnímá se jako duplicitní segmenty).
  • Špatné zálohování, obnovení nebo čistý výkon – Při přesunu z jednoho souboru do druhého (protože kontext používaných metadat musí být přepnut, dochází během zálohování, obnovy nebo čištění) k velkým zátěžem.
Viz:
  • Dopad na čistý výkon při používání malých souborů byl do míry zmírněny zavedením fyzického čištění nebo garbage collection v systému DDOS 5.5 a novějším.
  • Čištění se pokusí "vrátit" špatné využití kontejneru agregací dat z kontejnerů s nízkým využitím do pevněji zaplněných kontejnerů během fáze kopírování.
  • Pokusy o odstranění příliš duplicitních segmentů během fáze kopírování.
Navzdory výše uvedenému je třeba se vyhnout použití velkého počtu malých souborů nebo úloh skládajících se především z malých souborů. Před zálohováním je lepší zkombinovat velký počet malých souborů do jednoho nekomprimovaného/nezašifrovaného archivu, než odeslat malé soubory do paměti DDR v nativním stavu. Například je mnohem lepší zálohovat jeden 10Gb soubor obsahující 1048576 jednotlivé soubory s kapacitou 10 Kb, než jsou všechny 1048576 soubory samostatně.

Nadměrné multiplexování zálohovacími aplikacemi:

Zálohovací aplikace lze nakonfigurovat tak, aby prováděly multiplexování dat napříč datovými proudy odesílajícími do zálohovacího zařízení, tj. data ze vstupních datových toků (to jsou různí klienti) je odesílána do zálohovacího zařízení v jediném datovém toku. Tato funkce se používá především při zápisu na fyzická pásková zařízení jako:
  • Fyzické páskové zařízení může podporovat pouze jeden příchozí tok zápisu.
  • Zálohovací aplikace musí udržovat dostatečnou propustnost páskového zařízení, aby se zabránilo spouštění, zastavení nebo převinutí pásky (označovaných také jako lepicí páskové páskové zařízení) – to je snazší, pokud datový proud přejde do páskového zařízení obsahuje data načtená z více než jednoho klienta.
V případě paměti DDR to však způsobí, že jeden soubor na ddr bude obsahovat data z více klientů, které jsou prokládání v libovolném pořadí nebo velikostech bloku. To může způsobit snížený poměr deduplikace, protože paměť DDR nemusí být schopna přesně zaznamenat duplicitní segmenty z každé generace zálohy daného klienta. Obecně platí, že čím menší je multiplexní detailnost, čím horší je dopad na poměr deduplikace.

Kromě toho může být výkon obnovení nízký kvůli obnovení určitých dat klientů, které musí paměť DDR číst mnoho souborů nebo kontejnerů, kde je většina dat v souborech nebo kontejnerech nadbytečná v poměru k zálohování jiných klientů.

Zálohovací aplikace při zápisu do paměti DDR nesmí používat multiplex, jelikož aplikace DDR podporují vyšší počet příchozích proudů než fyzická pásková zařízení, přičemž každý datový proud může zapisovat proměnlivou rychlostí. V důsledku toho by mělo být multiplexování zálohovacími aplikacemi zakázáno. Pokud je po zakázání multiplexu ovlivněn výkon zálohování, potom:
  • U zálohovacích aplikací pomocí protokolů CIFS, NFS nebo OST (DDBoost) by měl být zvýšen jejich počet datových proudů zápisu (aby bylo možné v paměti DDR zapsat více souborů souběžně).
  • Prostředí využívající VTL by měla do paměti DDR přidat další disky, jelikož každý disk podporuje další paralelní datový tok zápisu.
Pokud potřebujete pomoc se zakázáním multiplexingu nebo chcete projednat doporučenou konfiguraci multiplexování pro konkrétní zálohovací aplikaci, obraťte se na smluvního poskytovatele podpory.

Zálohování aplikací zasouvání nadměrných páskových popisovačů:

Některé zálohovací aplikace mohou do záložního datového toku vkládat opakované datové struktury označované jako "popisovače". Popisovače v rámci zálohy nereprezentují fyzická data, namísto toho se namísto toho používají jako indexační nebo polohový systém zálohovací aplikací.

V některých případech může zahrnutí popisovačů do záložního toku snížit poměr deduplikace, například:
  • V první generaci zálohování bylo 12 kb dat, která byla souvislá – paměť DDR ji rozpoznala jako jeden segment.
  • Ve druhé generaci zálohy je však stejná 12 kB dat rozdělena zahrnutím popisovače zálohy, která může být reprezentována 6 kB dat, popisovačem zálohy a 6 kb dat.
  • V důsledku toho se segmenty vytvořené během druhé generace zálohy neshodují s segmenty vytvořenými během první generace zálohy, proto se nevydá správně.
Čím přesněji jsou popisovače rozložíny, je horší dopad na deduplikační poměr (například vložení popisovačů zálohovací aplikace každých 32 kb způsobuje více problémů než u zálohovací aplikace s vkládáním popisovačů každých 1 Mb).

Aby k tomuto problému nedocházelo, paměť DDR využívá technologii rozpoznání popisovačů, která umožňuje:
  • Zálohujte popisovače, které mají být při spolknutí zálohy transparentně odebrány ze záložního datového proudu.
  • Zálohování popisovačů k opětovnému vložení do záložního datového proudu během obnovení zálohy
To pomáhá předcházet fragmentaci dat nebo segmentů pomocí popisovačů zálohování a zlepšuje poměr deduplikace odpovídajících záloh.

Aby však paměť DDR mohla tuto technologii plně využít, je důležité, aby správně rozpoznala popisovače vložené do záložních datových proudů. Paměť DDR vyhledá popisovače v závislosti na nastavení možnosti "typ popisovače", například:

SE@DDVE60_JF## filesys možnost show
Option Value
-------------------------------- --------
...
Auto typu
popisovače...


-------------------------------- --------Pokus je třeba tuto možnost nastavit na hodnotu "auto", protože to umožňuje paměti DDR automaticky odpovídat nejběžnějším typům popisovačů. Pokud systém spolká data pouze z jedné zálohovací aplikace, která vkládá popisovače, pak může být výhodou výkonu specifikace konkrétního typu popisovače, to je:

# filesys option set popisovač-type {auto | nw1 | cv1 | tsm1 | tsm2 | eti1 | fdr1 | hpdp1 | besr1 | ssrt1 | ism1 | bti1| none}

Viz:
  • Jakékoli výhody pro výkon při výběru konkrétního typu popisovače jsou pravděpodobně minimální.
  • Výběr nesprávného typu popisovače může vést k výraznému snížení kvality zálohování nebo obnovení výkonu a poměru deduplikace.
V důsledku toho systém Data Domain obvykle doporučuje ponechat typ popisovače nastavený na hodnotu "auto". Další rady ohledně úpravy typu popisovače vám poskytne smluvní poskytovatel podpory.

U systémů, které příjem dat z aplikací, které používají zálohovací popisovače, ale které nerozpoznávají automatizovaná technologie zpracování popisovačů (například produkty ze softwaru BridgeHead), se obraťte na smluvního poskytovatele podpory, který poté může s podporou Data Domain určit požadovaná nastavení ddr za účelem zjištění nestandardní popisovače.

Příznaky , že paměť DDR přijímá data "nekvalitní":

V následující tabulce je uveden seznam očekávaných poměrů deduplikace a komprese pro různé typy dat uvedené výše. Tento seznam není vyčerpávající a může se samozřejmě vyskytnout určité odchylky v přesných datech, které se zobrazují na daném systému kvůli zatížení nebo datům, která paměť DDR pojme:
 
Globální komprese Místní komprese Pravděpodobná příčina
Nízká (1x– 4x) Nízká (1x– 1,5x) Předkoprimovaná nebo šifrovaná data
Nízká (1x– 2x) Vysoké (>2x) Jedinečná, ale komprimovatelná data, například protokoly archivu databáze
Nízká (2x– 5x) Vysoký (>1,5x) Nezjištěné popisovače, vysoká rychlost změny dat nebo multiplexování streamování.
Vysoký (>10x) Nízká (<1,5x) Zálohování stejných komprimovaných nebo šifrovaných dat. Jedná se o neobvyklé jed.

Existují na paměti DDR určité faktory, které mohou ovlivnit celkový poměr deduplikace?

Ano – existuje několik faktorů, které mohou způsobit uchování starých/superflousových dat na disku DDR, což způsobuje zvýšení postkomprimovaného (fyzického) místa na disku a pokles celkového poměru komprese. Tyto faktory jsou rozebrány níže.

Chyba pravidelného čištění systému souborů:

Čištění souborového systému je jediným způsobem, jak fyzicky odstranit stará/superflous data z disku, který již nejsou soubory na DDR odkazovány. V důsledku toho může uživatel ze systému odstranit několik souborů (způsobující pokles předkomprimovaného využití), ale nespustí se čištění (takže postcompressed/physical využití je vysoké). To by způsobilo pokles celkového poměru komprese.

Společnost Data Domain doporučuje naplánovat čištění v pravidelných intervalech následujícím způsobem:
  • Normální DDR: Jednou týdně
  • Paměť DDR s využitím rozšířené retence: Jednou za dva týdny
Čištění by se nemělo spouštět více než jednou týdně, protože to může způsobit problémy s fragmentací dat na disku, který se projeví jako slabý výkon obnovení/replikace.

Nadměrné množství starých snapshotů v systému:

Aplikace DDR mohou vytvářet snapshoty mTree, které představují obsah stromu mTree v okamžiku vytvoření snapshotu. Upozorňujeme však, že ponechání starých snapshotů v systému může způsobit zvýšení postkomprimovaného/fyzického využití a způsobit pokles celkového poměru komprese. Například:
  • Strom MTree obsahuje mnoho souborů (takže předkomprimované využití je vysoké).
  • Vytvoří se snapshot stromu MTree.
  • Mnoho souborů je odstraněno (způsobuje pokles předkomprimovaného využití).
  • Čištění systému souborů je spuštěno – upozorňujeme však, že minimální místo na pevném disku je uvolněno v podobě kopie odstraněných souborů ve snapshotu mTree, což znamená, že data odkazovaná těmito soubory nelze z disku odstranit.
  • V důsledku postcompressed/fyzického využití zůstává vysoká
Společnost Data Domain doporučuje, aby při použití snapshotů mTree (například pro obnovení po náhodném odstranění dat) byly spravovány pomocí automatických plánů snapshotů, které tak vytvářejí snapshoty v pravidelných intervalech s definovaným obdobím vypršení platnosti (doba před automatickým odebráním snapshotu). Mimo to by měla být doba vypršení platnosti co stručná (to však může samozřejmě záviset na použití snapshotů nebo úrovni ochrany, kterou tyto snapshoty poskytují). To zabrání nahromadění starých snapshotů s dlouhou dobou vypršení platnosti.

Další informace o práci se snapshoty a plány snapshotů jsou k dispozici v následujícím článku: Data Domain – správa plánů snapshotů

Nadměrná prodleva replikace:

Nativní replikace systému Data Domain využívá buď protokol replikace, nebo snapshoty mTree (v závislosti na typu replikace) ke sledování, které soubory nebo data čekají na replikaci na vzdálenou DDR. Prodleva replikace je koncept selhání repliky za změnami zdrojové paměti DDR. K tomu může dojít z různých faktorů:
  • Jsou deaktivovány kontexty replikace
  • Nedostatečná šířka pásma sítě mezi službami DDR
  • Časté odpojování sítě.
Velká prodleva replikace může způsobit, že protokol replikace bude nadále obsahovat reference na soubory, které byly odstraněny ve zdrojové paměti DDR nebo starých nebo zastaralých snapshotech mTree ve zdrojovém a cílovém systému DDR. Jak je popsáno výše, data odkazovaná těmito snapshoty (nebo protokolem replikace) nelze fyzicky odebrat z disku na paměti DDR, ani když byly z systému odstraněny odpovídající soubory. To může vést ke zvýšení postkomprimace nebo fyzického využití paměti DDR, což následně způsobí snížení deduplikace.

Pokud ddR mají vysoké využití a důvodem je pravděpodobně prodleva replikace, obraťte se na smluvního poskytovatele podpory, který vám poskytne další pomoc.

Dochází u paměti DDR ke změnám konfigurace nebo k určitým faktorům, které mohou zvýšit celkový poměr komprese?

Ano – odebrání nebo řešení problémů, které byly dříve popsány v tomto dokumentu, by mělo paměti DDR umožnit zobrazit zlepšení celkového poměru komprese v průběhu času. Na paměti DDR existují také různé faktory nebo pracovní zatížení, což může vést ke zvýšení poměru deduplikace. Obecně to znamená:
  • Snížení množství místa na pevném disku, které používají soubory na paměti DDR (například zvýšení agresivita algoritmu komprese používaného pamětí DDR)
  • Náhlé zvýšení množství předkomprimovaných (logických) dat na paměti DDR bez odpovídajícího zvýšení postcompressed/fyzického využití
Úprava komprimního algoritmu:

Ve výchozím nastavení komprimují soubory DDR zapisovává data na disk algoritmem lz . Jak již bylo zmíněno dříve, používá se lz , jelikož má relativně nízké režijní náklady z hlediska procesoru vyžadované ke kompresi nebo dekompresi, ale vykazuje přiměřenou efektivitu při zmenšení velikosti dat.

Je možné zvýšit agresivitu komprimovaného algoritmu a zajistit tak další úspory při postcompressed nebo využití pevného disku (a v důsledku toho se zvýší celkový kompresní poměr). Podporované algoritmy komprese, v pořadí účinnosti (od nízké po nejvyšší), jsou následující:
  • Lz
  • gzFast
  • Gz
Obecné srovnání jednotlivých algoritmů je následující:
  • lz ve srovnání s gzfast poskytuje přibližně o 15 % lepší kompresi a spotřebovává 2x procesor.
  • lz ve srovnání s gz poskytuje přibližně 30 % lepší kompresi a spotřebovává 5x procesor.
  • Možnost gzfast ve srovnání s gz poskytuje přibližně o 10–15 % lepší kompresi.
Je také možné kompletně zakázat kompresi (zadat algoritmus žádný), není však podporován pro použití v systémech zákazníka a slouží pouze k internímu testování.

Podle výše uvedené tabulky je agresivnější algoritmus komprese vyžadováno více procesoru během komprese nebo dekomprese dat. Kvůli tomu by se změny agresivnějšího algoritmu měly provádět pouze na systémech, které se lehce načítají při normálním zatížení. Změna algoritmu u vytížených systémů může vést k extrémnímu snížení výkonu zálohování nebo obnovení a možné panice nebo restartování souborového systému (způsobující výpadek paměti DDR).

Další informace o změně typu komprese naleznete v následujícím článku: Dopad převodu na kompresi

GZ na systém Data Domain a dopad čištění výkonuVzhledem k možnému dopadu změny algoritmu komprese se doporučuje, aby zákazníci, kteří mají zájem o provedení tohoto postupu, kontaktovali svého smluvního poskytovatele podpory a mohli změnu dále projednat.

Použití fastcopy souborového systému:

Služby DDR umožňují rychlé zkopírování souboru (nebo stromu adresáře) pomocí příkazu "file system fastcopy". Tato funkce vytváří soubor naklonováním metadat stávajícího souboru (nebo skupiny souborů), takže zatímco nové soubory nejsou fyzicky připojeny k původnímu souboru, odkazují na stejná data na disku jako na původním souboru. To znamená, že bez ohledu na velikost původního souboru spotřebovává nový soubor na disku málo místa (protože se dokonale deduplikuje vůči stávajícím datům).

Výsledkem tohoto chování je, že při použití fastcopy systému souborů se rychle zvýší předkomprimovaná (logický) velikost dat na paměti DDR, ale postcompressed/fyzické využití DDR zůstává statické.

Například následující paměť DDR využívá následující využití (označující celkový poměr komprese ~1,8x):

Aktivní vrstva:
Velikost zdroje Gb Využito Gb Využito% Vyčistitelné giB*
---------------- -------- -------- --------- ---- --------------
/data: pre-comp - 12.0 - - -
/data: post-comp 71.5 6.8 64.7 10 % 0.0
/ddvar 49.2 1.1 45,6 2 % -
/ddvar/core 158.5 0.2 150.2 0 % -
---------------- -------- -------- --------- ---- --------------


Obsah obsahuje velký soubor (/data/1/backup/testfile):

!!! DDVE60_JF JSOU VAŠE DATA V OHROŽENÍ !!! # ls -al /data/aug1/backup/testfile-rw-r
--r-- 1 kořenový adresář 3221225472 29. července 204:20 /data/and1/backup/testfile


Soubor je několikrát

stažen:sysadmin@DDVE60_JF# filesys fastcopy source /data/zip1/backup/testfile destination /data/zip1/backup/testfile_copy1
sysadmin@DDVE60_JF# filesys fastcopy source /data /cg1/backup/testfile destination /data/etc1/backup/testfile_copy2
sysadmin@DDVE60_JF# filesys fastcopy source /data/and1/backup/testfile destination /data/etc1/backup/testfile_copy3


To způsobuje zvýšení předkomprimovaného využití pro malé změny postcompressed využití:

Aktivní vrstva:
GiB Resource Size Used GiB Avail GiB Use% Cleanable GiB*
---------------- -------- -------- --------- ---- --------------
/data: pre-comp - 21.0 - - -
/data: post-comp 71.5 6.8 64.7 10 % 0.0
/ddvar 49,2 1,1 45,6 2 % -
/ddvar/core 158,5 0,2 150,2 %–
---------------- -------- -------- --------- ---- --------------


A výsledkem ddr nyní ukazuje celkový kompresní poměr ~3,1x.

Jak je uvedeno výše, statistiky komprese kopií ukazují, že se dokonale vyhradí:

sysadmin@DDVE60_JF# filesys zobrazují kompresi /data/angel1/backup/testfile_copy1
Total: 1;  bajty/storage_used: 21331976.1
Původní bajty:        Globální komprimováno 3 242 460 364
:                    0
místně komprimováno:                    0
Meta-data:                  152,


Funkci fastcopy nelze použít ke zlepšení celkového komprimačního poměru snížením fyzického využití ddr, ale může být příčinou vysokého celkového poměru komprese (zejména v prostředích, která značně využívají fastcopy, např. Avamar 6.x).

Affected Products

Data Domain

Products

Data Domain
Article Properties
Article Number: 000064270
Article Type: Solution
Last Modified: 16 Dec 2024
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.