Systém Data Domain Operating System po rozšíření kapacity systému Data Domain File System nepodporuje proaktivní vyvážení dat v úložišti

Summary: Tento článek vysvětluje, proč po rozšíření systému Data Domain File System (DDFS) v zařízení Data Domain Restorer (DDR) není k dispozici integrovaná podpora pro vyvážení dat v úložišti

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Podobně jako u mnoha jiných diskových polí lze kapacitu většiny modelů Data Domain Restorer (DDR) zvýšit přidáním externích polic úložných skříní (ES30, DS60) a následným rozšířením systému souborů DDFS (Data Domain File System) na tyto police skříní. Kdy se to provádí:
  • Police nových skříní jsou fyzicky připojeny kabelem
  • Operační systém Data Domain Operating System (DDOS) znovu prohledá úložiště a zjistí, zda se v něm nacházejí nové police skříní
  • Tyto nové police skříní se poté přidají do vrstvy úložiště v rámci zařízení DDR (aktivní vrstva nebo konkrétní archivní jednotka)
  • Tuto vrstvu je pak možné rozšířit online bez nutnosti výpadku systému DDFS
  • Všechna nová data zapsaná do této vrstvy úložiště se zapisují do stávajících a nových polic
  • Data ve stávajících policích se však nevyváží mezi nové police
Podrobnější vysvětlení:
  • V systému DDOS je úložištěm dat „kontejner“ o velikosti 4,5 MB
  • Po vytvoření se kontejnery o velikosti 4,5 MB zapíšou kruhovým dotazováním do všech polic skříní v příslušné archivní jednotce vrstvy
  • Když se do archivní jednotky vrstvy přidají další police skříně, začne systém DDFS do těchto skříní zapisovat nové 4,5MB kontejnery navíc ke stávajícím skříním (nové skříně jsou zahrnuty při zápisu kontejneru pomocí kruhového dotazování)
  • Systém DDOS se však nepokouší (ani nenabízí žádné konkrétní funkce) migrovat stávající kontejnery v dané vrstvě ze stávajících do nových skříní
To znamená, že přidání policových skříní může způsobit, že data v připojeném úložišti nebudou „vyvážená“. Například:
  • Zařízení DDR má zpočátku ve své aktivní vrstvě jednu skříň, která je z 90 % zaplněna.
  • Do aktivní vrstvy se přidá další skříň a systém DDFS se o ni rozšíří.
  • Zápisy nově vytvořených kontejnerů o velikosti 4,5 MB jsou nyní kruhově dotazovány ve stávajících i nových skříních.
  • To znamená, že stávající skříň nemá dostatek volného místa, zatímco nově přidaná skříň je téměř prázdná.
V tomto scénáři mnoho diskových polí umožňuje správci znovu vyvážit data v připojených skříních a proaktivně migrovat některá data ze stávajících skříní do nově přidaných, aby bylo zajištěno, že využitá kapacita všech skříní bude přibližně stejná. Upozorňujeme však, že systém DDOS tuto funkci NENABÍZÍ a vzhledem ke konstrukci systému DDFS není nutná, protože k vyvážení dat dochází v průběhu času přirozeně.

Vyvažování dat se provádí dvěma operacemi:
  • Čištění Garbage Collection
  • Oprava lokality
Každá z těchto operací a způsob, jakým způsobují automatické vyvažování dat, jsou podrobněji popsány níže.

Čištění Garbage Collection

Čištění Garbage Collection (GC) je naplánovaná aktivita, která se pravidelně spouští v zařízení DDR (ve výchozím nastavení jednou týdně v aktivní vrstvě a v případě potřeby u archivních jednotek za předpokladu, že je povoleno opětovné využití místa). Kdy se spouští:
  • Určuje, která fyzická data v archivní jednotce vrstvy jsou „živá“ (používaná jedním nebo více soubory v systému souborů nebo objekty, jako jsou snapshoty) nebo „mrtvá“ (neodkazuje na ně žádný objekt, a proto jsou pro systém nadbytečná)
  • Určuje, které 4,5MB kontejnery v archivní jednotce vrstvy obsahují většinu „mrtvých“ dat
  • Přečte tyto 4,5MB kontejnery a rozbalí veškerá „živá“ data, která obsahují – ta se pak „zkopírují dál“ do nově vytvořených 4,5MB kontejnerů, které se zapisují do všech polic v archivní jednotce vrstvy
  • Odstraní staré 4,5MB kontejnery, čímž odstraní i mrtvá data, která obsahují, a uvolní nezbytné místo na disku pro opakované použití
Když funkce GC běží v systému s jakoukoli nevyvážeností dat, očekává se, že většina starých dat (a tedy většina mrtvých dat) bude uložena ve starších policových skříních v rámci archivní jednotky vrstvy. Výsledkem je, že většina kontejnerů, které jsou čteny, kopírovány a odstraňovány, se nachází ve starších policových skříních. Nově vytvořené kontejnery se ale zapisují ve formátu kruhového dotazování mezi všemi policemi ve vrstvě. Výsledkem je, že funkce GC uvolní většinu místa na starších policích, zatímco nově se spotřebuje místo na všech policích.

Jednoduchý příklad:
  • Aktivní vrstva DDR obsahuje dvě police – první police obsahuje 10 000 4,5MB kontejnerů, zatímco druhá police obsahuje 100 4,5MB kontejnerů (na každý jeden kontejner na druhé polici připadá 100 kontejnerů na první polici)
  • Funkce GC spustí a zkopíruje data z 5 000 kontejnerů v první polici
  • Živá data v těchto 5 000 kontejnerech způsobí vytvoření 1 000 nových 4,5MB kontejnerů
  • Těchto 1 000 nových 4,5MB kontejnerů se zapíše do obou polic
  • Jakmile se funkce GC dokončí, první police pojme 5 500 4,5MB kontejnerů, zatímco druhá police pojme 600 kontejnerů (na každý jeden kontejner na druhé polici připadá přibližně devět kontejnerů na první polici)
  • V jednom cyklu GC se nerovnováha kontejnerů mezi první a druhou policí snížila faktorem 10 – očekává se, že během následujících cyklů GC se tato nerovnováha dále sníží, což znamená, že data se v průběhu času přirozeně vyváží napříč regály
Oprava lokality:

Když se soubor zapíše do zařízení DDR, provedou se následující operace na vysoké úrovni:
  • Soubor je rozdělen na logické části (nazývané segmenty) o velikosti 4–12 kB
  • Každý segment se zkontroluje, aby se zjistilo, jestli už náhodou na disku neexistuje ve vrstvě, do které se soubor zapisuje
  • Pokud segment již existuje, jedná se o duplicitní data a segment v nově zapsaném souboru je nahrazen ukazatelem na stávající data na disku
  • Pokud segment neexistuje, jedná se o jedinečná data, a proto jsou zabalena do nového kontejneru o velikosti 4,5 MB a zapsána na disk
Všechny soubory mají koncept „lokality“, což znamená, v jakém pořadí se segmenty dat, na které daný soubor odkazuje, nacházejí na disku v zařízení DDR. Je zřejmé, že soubory, u kterých dochází k vysokému poměru deduplikace (obsahují velké množství duplicitních dat), budou mít pravděpodobně horší lokalitu než jedinečný soubor, protože při vkládání se jejich data nahradí ukazateli na stávající data, která mohou být rozptýlena napříč kontejnery nebo disky v rámci odpovídající archivní jednotky vrstvy.

Dosažení dobrého výkonu při čtení dat v zařízení DDR vyžaduje, aby soubor měl dobrou „lokalitu“ (jeho data jsou na disku uspořádána relativně za sebou), aby algoritmy pro dopředné čtení systému DDFS mohly fungovat optimálně. Upozorňujeme také, že systém DDFS předpokládá, že soubor, ze kterého bude s největší pravděpodobností načten (pro obnovení nebo replikaci), je nejnovější kopií dané zálohy. Výsledkem je, že pro určité typy dat (jako virtual synthetic) se provádí proces zvaný „oprava lokality“, který „optimalizuje“ lokalitu nově zapsaných dat souborů. Při spuštění oprava lokality:
  • Zkontrolujte data, na která odkazuje soubor, a vyhledá oddíly, kde data nejsou na disku uspořádána za sebou (mají špatnou lokalitu)
  • Načte tato neuspořádaná data z disku a znovu je zapíše postupně (jako duplicitní data) do nově vytvořených 4,5MB kontejnerů
Poté se očekává, že stará (neuspořádaná) kopie duplicitních dat bude během příštího spuštění funkce GC identifikována jako „mrtvá“ a bude odstraněna ze systému. V důsledku toho:
  • V systémech s nevyváženými daty se očekává, že většina starých neuspořádaných dat bude existovat na starých, spíše plně obsazených policích skříní
  • Když se tato data postupně přepíší jako duplicitní data, umístí se do nových kontejnerů o velikosti 4,5 MB, které jsou kruhově dotazovány ve všech skříních v odpovídající vrstvě
  • Výsledkem je, že většina „mrtvých“ (starých duplicitních dat) vytvořených opravou lokality se bude nacházet na starých, spíše plně obsazených policích
  • Když se funkce GC spustí, většina „mrtvých“ dat se nachází na starých, spíše plně obsazených policích a odstraní se (uvolní se místo na těchto policích), jak je popsáno výše
Závěr

Výsledkem je, že díky běžnému používání funkcí opravy lokality a čištění (GC) může zařízení DDR v průběhu času transparentně vyvažovat data napříč policemi. K tomu dochází bez dodatečného zásahu ze strany správců a odpadá nutnost vyhrazené funkce pro operace vyvážení dat, jak je tomu někdy u jiných diskových polí. Aby se zvýšila rychlost vyvažování, je tedy nutné:
  • Zvýšit rychlost „odchodu“ dat v zařízení DDR
  • Zvýšit množství dat, která jsou lokálně opravena v zařízení DDR
Chcete-li některou z těchto možností probrat podrobněji, obraťte se na smluvního poskytovatele podpory a uveďte podrobnosti uvedené v tomto článku.

Affected Products

Data Domain
Article Properties
Article Number: 000019150
Article Type: How To
Last Modified: 29 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.