Avamar: Koncepty a školení řízení kapacity
摘要: Tento článek je určen pro správu kapacity uživatele a operačního systému Avamar. Je určen pro správce systému Avamar nebo pro ty, kteří sledují stav mřížky Avamar a vyžadují znalosti o způsobu správy úrovní kapacity operačního systému a uživatele. ...
症状
Cíle tohoto článku:
- Shrnout typy dat, které se ukládají do oddílů /data*.
- Představit koncept „kapacity operačního systému“ a srovnat jej s konceptem „kapacity uživatele“ (někdy nazývané „GSAN Capacity“).
- Vysvětlit, proč byste neměli systém Avamar spouštět, pokud se blíží naplnění limitu kapacity uživatele.
- Uvést faktory, které přispívají k nárůstu množství režijních dat kontrolního bodu.
- Popsat, jak sledovat využití datových oddílů.
- Popsat příznaky, které se projevují, když se kapacita operačního systému vymkne kontrole.
- Uvést typické příčiny zpráv
MSG_ERR_DISKFULL. - Nastínit metody obnovení, které se používají v případě, kdy vysoká kapacita operačního systému ovlivňuje normální provoz systému.
- Popsat příznaky, které se projevují, když kapacita uživatele překročí svůj limit.
- Probrat, jak se zotavit ze situace s vysokou kapacitou uživatele.
V tomto článku se předpokládá, že je čtenář obeznámen s částí „Správa kapacity“ v průvodci vzorovými postupy systému Avamar
Příručky relevantní pro vaše operační prostředí se nacházejí v části Jak najít dokumentaci k softwaru Avamar na webu podpory společnosti Dell.
Mezi běžné problémy, které ovlivňují nebo poukazují na vysokou kapacitu operačního systému, patří:
- Selhání ověření kontrolního bodu (hfscheck).
- Selhání úlohy Garbage Collection se zprávou MSG_ERR_DISKFULL.
- Selhávání vytváření kontrolního bodu.
- Zálohování selhává.
- Příchozí úlohy replikace selhávají.
- Zobrazení systému v režimu „Admin“ v rozhraní Administrator během okna zálohování
原因
解决方案
Jak se data ukládají na mřížku Avamar?
Správa kapacity nástroje Avamar se týká dat, která jsou v oddílech /data* všech datových uzlů Avamar. Sem patří:
- deduplikovaná záložní data,
- paritní data RAIN,
- režijní data kontrolního bodu.
Aby úlohy údržby, jako je Garbage Collection a Asynchronous Stripe Crunching, probíhaly správně, musí být v datových oddílech také k dispozici volné místo.
Níže najdete grafické znázornění fyzického úložného prostoru dostupného v datových oddílech uzlů úložiště Avamar.
Jak se data ukládají do datových oddílů?
Ve výše uvedeném diagramu je jednoduše znázorněno využití místa v datových oddílech.
Hodnota 100 % nalevo je definována jako celková velikost fyzického místa dostupného pro operační systém v datových oddílech.
Pokud některý z datových oddílů zabírá více než 85 % celkového místa, nebude možné spustit úlohu Garbage Collection.
Značka 100% kapacity uživatele (limit režimu pouze pro čtení) udává, že až 65 % celkového místa v datovém oddílu je k dispozici pro ukládání deduplikovaných dat. Místo pod touto značkou 100 % kapacity uživatele se rovná hodnotě Server Utilization, která se zobrazuje v uživatelském rozhraní Administrator. Pokud množství deduplikovaných dat uložených v libovolném datovém oddílu v libovolném uzlu dosáhne 65 %, systém Avamar se přepne do režimu pouze pro čtení a odmítne další data zálohy.
To znamená, že v uživatelském rozhraní Avamar Administrator vidí uživatel místo, které zabraly zálohy, ale nemá přehled o místě spotřebovaném v datových oddílech operačního systému.
Proč byste neměli systém Avamar spouštět, pokud se blíží naplnění limitu kapacity uživatele:
Vztah mezi vysokou hodnotou kapacity uživatele a režijními daty kontrolního bodu je následující: jak se systém postupně zaplňuje, i malé zvýšení objemu dat zálohy může způsobit velké zvýšení objemu režijních dat kontrolního bodu.
Celá diskuse o tom, proč tomu tak je, přesahuje rámec tohoto článku. Nicméně je důležité si zapamatovat následující: Čím víc se systém Avamar blíží k limitu 100 % kapacity uživatele, tím menší kapacita operačního systému je k dispozici pro režii kontrolních bodů.
Jak je vidět ve výše uvedeném diagramu, u celého systému je hodnota režijních dat kontrolního bodu omezena na 20 % celkového místa operačního systému v datových oddílech.
Aby systém Avamar fungoval spolehlivě na vysoké úrovni kapacity uživatele, musí splňovat následující kritéria:
- Systém musí mít nastavenou nízkou míru denních změn dat (ne vyšší než 1 %).
- Kapacita musí být v neměnném stavu (jak je popsáno v části „Správa kapacity“ průvodci vzorovými postupy systému Avamar). Příručky relevantní pro vaše provozní prostředí najdete zde: Jak najít dokumentaci k softwaru Avamar na webu podpory společnosti Dell
- Každý den je třeba úspěšně provést úkony údržby.
Faktory, které přispívají k nárůstu množství režijních dat kontrolního bodu:
Následující faktory mohou způsobit zvýšení objemu režijních dat kontrolního bodu.
- Asynchronous Stripes Crunching (ve výchozím nastavení povoleno).
- Počet kontrolních bodů uložených v systému.
- Neúspěšné provedení každodenního ověření kontrolního bodu.
- Stav prázdných prokládání, když je server Avamar znovu použije (s vyšším využitím serveru se tento faktor stává závažnějším).
- Míra denních změn dat zálohování.<
Jak sledovat využití datových oddílů:
Využití datového oddílu operačního systému byste správně měli sledovat pomocí následujícího příkazu Avamar z uzlu nástroje Avamar.
Například:
admin@utilitynode:~/>: avmaint nodelist | grep fs-percent
fs-percent-full="7.8"
fs-percent-full="6.3"
fs-percent-full="6.4"
fs-percent-full="6.4"
fs-percent-full="7.6"
fs-percent-full="6.2"
fs-percent-full="6.1"
fs-percent-full="6.6"
fs-percent-full="7.8"
fs-percent-full="6.4"
fs-percent-full="6.5"
fs-percent-full="6.8"
Tento výstup obsahuje skutečné údaje o využití kapacity operačního systému. V mřížce, kde datové uzly používají fond souborů, nedává příkaz Linux df smysl, protože prokládání jsou předem přidělena ve fondu souborů a mnoho z nich se nemusí používat.
Co se stane, když se využití kapacity operačního systému vymkne kontrole?
Z pohledu uživatele je prvním náznakem toho, že se využití datových oddílů vymklo kontrole, vzrůst využití nad 85 %.
Úlohu Garbage Collection již nebude možné spustit a bude selhávat s chybovou zprávou
MSG_ERR_DISKFULL .
Zde často dochází k nedorozuměním: Uživatel si často vyloží zprávu
MSG_ERR_DISKFULL tak, že v systému již není místo na zálohy.
To je chybná domněnka, nicméně uživatel obvykle zkontroluje hodnotu využití serveru v uživatelském rozhraní Avamar Administrator a zjistí, že je přijatelná, například 60 %.
Uživatel se pak může pokusit odstranit zálohy z grafického uživatelského rozhraní Avamar pro správu zálohování. I kdyby byla úroveň kapacity uživatele vysoká, odstranění záloh by situaci nezmírnilo, protože úloha Garbage Collection se nespustí a neodstraní ze systému segmenty dat s prošlou platností.
Pokud v systému dochází k problému s vysokou kapacitou operačního systému i kapacitou uživatele, nejprve se zaměřte na vyřešení problému s vysokou kapacitou operačního systému.
V případě vysokého využití kapacity operačního systému nemusí mít systém dostatek místa pro vytvoření kontrolních bodů.
Co je příčinou zprávy MSG_ERR_DISKFULL?
Nejčastější příčinou je příliš vysoký objem režijních dat kontrolního bodu. Typickou příčinou vysokého objemu režijních dat kontrolního bodu může být:
- Opakované selhání ověření kontrolního bodu (hfscheck).
- Selhání ověření hfscheck má mnoho možných hlavních příčin (náhlé zrušení, selhání softwaru atd.).
- Systém má příliš málo místa a vysokou míru denních změn dat.
- Systém potřebuje více datových uzlů, aby mohl zpracovat míru změn dat a data uložit.
- Systém je nakonfigurován pro zálohování většího množství dat či klientů, než pro které byl původně přizpůsoben.
- Dochází k ukládání příliš mnoha kontrolních bodů (nástroj Avamar ve výchozím nastavení ukládá dva kontrolní body, z nichž byl jeden ověřen).
- Správce systému vytvořil nadbytečné kontrolní body.
- Nedávno byla provedena údržba, ale nedošlo k obnovení výchozích dat kontrolního bodu.
Pomoc při řešení situace s chybou MSG_ERR_DISKFULL naleznete v následujícím článku: Úlohy údržby Avamar selhávají se zprávou „MSG_ERR_DISKFULL“, jelikož kapacita operačního systému pro datový oddíl > 89%.
Kroky k prozkoumání a zmírnění problému s vysokou kapacitou operačního systému
1. Zjistěte, kdy byla dokončena poslední kontrola hfscheck. K tomu použijte nástroj Avamar Administrator nebo příkazový řádek v uzlu nástroje Avamar:
- V nástroji Avamar Administrator přejděte na kartu Server > Checkpoint Management.
- Zkontrolujte nejnovější datum a čas uvedený ve sloupci Checkpoint Validation. K poslední kontrole by mělo dojít během posledních 24 hodin.
- Pomocí příkazového řádku uzlu nástroje Avamar spusťte příkaz cplist.
admin@utilitynode:~/>: cplist
cp.20110114111419 Fri Jan 14 11:14:19 2011 valid rol --- nodes 3/3 stripes 1131
cp.20110114194457 Fri Jan 14 19:44:57 2011 valid --- --- nodes 3/3 stripes 1131
Pokud výsledky ukazují, že je poslední ověřený kontrolní bod starší než 24 hodin, zjistěte proč. Může to být proto, že kontrola HFScheck nebyla spuštěna nebo selhala.
2. Ověřte, zda byla kontrola HFScheck spuštěna nebo selhala.
Například:
Last hfscheck: finished Sat Jan 15, 11:07:17 2011 after 06m 41s >> checked 528 of 528 stripes (OK)
.
admin@utilitynode:~/>: dpnctl status maint
Identity added: /home/admin/.ssh/dpnid (/home/admin/.ssh/admin_key)
dpnctl: INFO: Maintenance windows scheduler status: enabled.
- Pokud je plánovač časových intervalů údržby vypnutý, zakázaný nebo pozastavený, povolte ho pomocí příkazu: dpnctl start maint
- Volitelně můžete vzít nový kontrolní bod a spustit kontrolu hfscheck nebo počkat na dokončení příští naplánované údržby.
Jakmile se kontrola hfscheck úspěšně dokončí (po vyřešení jakýchkoli problémů nebo restartování plánu údržby), nejstarší kontrolní bod bude odstraněn a kapacita operačního systému by se měla výrazně snížit.
- Pokud je kapacita operačního systému stále příliš vysoká a úlohy Garbage Collection nadále selhávají se zprávou MSG_ERR_DISKFULL, požádejte o pomoc technický tým podpory Dell.
- V opačném případě, pokud je kapacita operačního systému dostatečně nízká, aby bylo možné úlohy Garbage Collection dokončit, zaměřte se na snížení hodnoty „User Capacity“ a „Server Utilization“.
Kroky ke snížení vysoké kapacity uživatele:
Na rozdíl od kapacity operačního systému může úroveň kapacity uživatele snáze a přímo ovlivnit správce systému Avamar.
1. Zajistěte, aby úloha Garbage Collection probíhala každý den a nedocházelo k jejímu přerušení ze strany záloh.
Toto je nejdůležitější bod, protože i adekvátně dimenzovaný systém rychle zaznamená vysokou uživatelskou kapacitu, pokud úloha Garbage Collection neběží pravidelně nebo spolehlivě.
Podle výše uvedeného postupu ověřte, zda je povoleno okno údržby, a pomocí skriptů capacity.sh a sched.sh zkontrolujte, že probíhá úloha Garbage Collection a že odebírá data.
Před verzí Avamar v7.x nebylo možné spustit zálohy během okna „omezení“ úlohy Garbage Collection.
Funkce Hash Referenced Bit Maps zavedená ve verzi Avamar v7.x umožňuje zálohování během činnosti údržby Garbage Collection. Tato funkce vyžaduje, aby tyto „mapy“ měly alespoň 5 minut denně, během kterých nebudou spuštěny žádné zálohy, aby je bylo možné resetovat.
Obsah o této funkci je k dispozici pomocí odkazu na článek Avamar: Od verze Avamar 7 hlásí úloha Garbage Collection přeskočené hashe, které nelze odstranit kvůli funkci „Hash Referenced Bit Maps“, když jsou data používána.
2. Nepřidávejte do mřížky nové klienty.
Jakmile se mřížka Avamar přiblíží naplnění své kapacity, měli byste okamžitě přestat přidávat nové klienty, aby se situace nezhoršila.
Pokud používáte jinou mřížku Avamar, která vykazuje nižší úroveň využití serveru, zvažte přidání nových klientů do této mřížky namísto serveru, který se začíná zaplňovat.
3. Zjistěte, kteří klienti zabírají nejvíce úložného prostoru.
Abyste vyřešili problém s kapacitou, je třeba zjistit, kteří klienti přidávají do systému Avamar nejvíce dat.
K určení klientů, kteří mají nejvyšší míru změn, lze také použít skript capacity.sh (spuštěný z příkazového řádku uzlu nástroje Avamar).
Registrovaní uživatelé společnosti Dell mohou získat přístup k obsahu pomocí odkazu na článek Avamar: Jak spravovat kapacitu pomocí skriptu capacity.sh, kde najdou další podrobnosti o používání skriptu capacity.sh.
Často se stává, že nejvíce místa spotřebovávají ti klienti, kteří zálohují databáze SQL nebo e-mailové servery. Proto jim věnujte zvláštní pozornost.
4. Přehodnoťte zásady uchovávání dat.
Jakmile určíte klienty s vysokou mírou změn dat, znovu přehodnoťte zásady uchovávání dat a zjistěte, zda lze některé nich přestat používat, aby se požadavky na úložiště snížily na přijatelnou úroveň.
Pokud je systém dostatečně starý a dochází již k vypršení platnosti nejdéle uchovávaných záloh, pak po vyřazení zásad uchovávání dat očekáváme, že úloha Garbage Collection každý den odstraní větší množství dat. Sledujte tento trend pomocí skriptu capacity.sh.
Pokud systém Avamar ještě není dostatečně starý a nedochází k vypršení platnosti záloh, může být nutné nahradit zásady uchovávání dat, aby platnost nejstarších záloh začala nyní vyprchávat.
Pokud není možné vyřadit některé zásady uchovávání dat z důvodu regulačních požadavků, měli byste zvážit rozšíření systému Avamar nebo migraci klientů do jiného, méně používaného systému Avamar.
5. Proveďte migraci klientů do alternativního systému Avamar.
Je-li k dispozici jiný systém Avamar, zvažte možnost migrace velkých klientů nebo těch s vysokou mírou změn dat z více využívaných systémů do těch méně využívaných pomocí rozhraní Avamar Client Manager.
- Nový server Avamar vyžaduje pro klienty Avamar, které chcete migrovat, dostatečné úložiště.
- Udržujte klienty s podobným typem dat ve stejném systému Avamar, abyste mohli využívat výhod deduplikace.
- Tato strategie je nejvhodnější, když se systémy Avamar nacházejí ve stejné místní síti.
6. Odstraňte staré zálohy.
Pokud je úroveň zaplnění uživatelské kapacity závažná (> 90 %), může být nutné ukončit platnost starých záloh prostřednictvím rozhraní pro jejich správu nebo pomocí nástroje modify-snapups.
Uživatelé společnosti Dell mohou získat přístup k obsahu pomocí odkazu na článek Správa kapacity nástroje Avamar: Jak hromadně odstranit zálohy nebo způsobit vypršení jejich platnosti pomocí nástroje „modify-snapups“
Po odstranění záloh se úroveň využití serveru sice nesníží okamžitě, úloha Garbage Collection však bude moci při příštím spuštění začít odstraňovat data. Odstranění starých záloh je krátkodobé řešení. Zálohy budou nahrazeny v nadcházejících dnech. Pokud dojde k odstranění záloh, je nezbytné také upravit zásady uchovávání dat.
7. Sledujte změnu dat pomocí skriptu capacity.sh.
Po odstranění záloh a změně zásad uchovávání dat pečlivě sledujte množství změn dat v systému pomocí skriptu capacity.sh. Hodnota „Removed“ by měla růst a hodnota „Net Change“ by měla být záporná. Po odstranění přebytečných dat ze systému se hodnota „Removed“ začne opět vracet na normální úrovně. Pokračujte v monitorování hodnoty „Removed“.
Pokud se hodnota „Net Change“ nezmění na zápornou, zkontrolujte protokol Garbage Collection a zjistěte, jak dlouho úloha Garbage Collection probíhá a kolik práce stihne v rámci okna údržby.
Uživatelé společnosti Dell mohou získat přístup k obsahu pomocí odkazu na článek Avamar: Jak spravovat kapacitu pomocí skriptu capacity.sh, kde najdou další podrobnosti o používání skriptu capacity.sh.
8. Rozšiřte systém Avamar:
Vysoké využití systému Avamar je často způsobeno přirozeným a očekávaným růstem množství dat. Aby bylo možné pokračovat ve výrobních zálohách, musí být k dispozici více místa.
Způsob provedení závisí na typu systému Avamar.
- Systémy s jedním uzlem a systémy Avamar Virtual Edition (AVE)
Tyto systémy rozšířit nelze. Pořiďte si druhý, větší systém Avamar a požádejte profesionální služby Dell o migraci menšího systému do většího. Profesionální služby lze zapojit prostřednictvím obchodního zástupce společnosti Dell.
Pokud nový systém poskytuje více úložného prostoru než zdrojový systém, může jím být systém s jedním či více uzly nebo systém AVE.
- Systémy s více uzly
Tyto systémy lze rozšířit až na 16 datových uzlů. Podrobnosti vám sdělí obchodní zástupce společnosti Dell. Běžné kanály podpory neprovádějí přidávání uzlů, takže pro tuto operaci nevytvářejte servisní požadavek.
- Integrace systému Data Domain
Užitečným způsobem, jak rozšířit kapacitu dostupnou klientům, kteří provádí zálohování do systému Avamar, je integrovat systém Data Domain jako backendové zálohovací úložné zařízení. Proberte dostupné možnosti s obchodním zástupcem společnosti Dell.
其他信息
Užitečné nástroje
- status.dpn
- capacity.sh
- Avalanche
- Souhrnný report DPN
- replcnt.sh
- Avamar Client Manager
Doporučené postupy:
-
Snažte se zabránit tomu, aby hodnota využití serveru Avamar (kapacita uživatele) překročila 80 %.
-
Nižší kapacita uživatele zajišťuje odolnost proti neočekávaným změnám v množství přidaných dat a může chránit systém před přechodem do nepoužitelného stavu, pokud dojde k neočekávanému selhání nebo krátkodobým problémům s úlohami údržby.
-
U systému Avamar s kapacitou uživatele vyšší než 80 % je důležité, aby jej správce systému pečlivěji sledoval, a zajistil tak, že se úlohy údržby úspěšně dokončí a systém nepřejde do režimu pouze pro čtení.