PowerScale | Principy strategií mezipaměti L3 a metadat
Summary: PowerScale nabízí flexibilní způsob použití disků SSD (solid state drive) ve fondu uzlů pro zvýšení výkonu. Dvě primární strategie jsou L3 cache a akcelerace metadat. Mezipaměť L3 je navržena tak, aby ukládala často používaná data a metadata do mezipaměti za účelem zlepšení výkonu při čtení. Akcelerace metadat vyčleňuje disky SSD pro ukládání a urychlení operací metadat, což může být výhodné pro úlohy náročné na metadata. ...
Instructions
Principy mezipaměti L3:
Cache L3: Mezipaměť L3 je sekundární úroveň mezipaměti, která se nachází na discích SSD a doplňuje primární mezipaměť paměti (L1 a L2). Funguje jako mezipaměť pro vyřazování, která ukládá často používaná data a metadata pro zlepšení latence čtení. Mezipaměť L3 je nejvýhodnější pro pracovní postupy zahrnující náhodný přístup k souborům. Může pracovat v režimu pouze metadat pro uzly úložiště archivní řady. Povolení mezipaměti L3 ve fondu uzlů s existujícími daty na discích SSD vyžaduje, aby disky evakuovaly tato data na pevné disky předtím, než je bude možné použít k ukládání do mezipaměti. Zakázání mezipaměti L3 je obecně rychlejší operace.
Pracovní postupy, které těží z mezipaměti L3:
-
- Mezipaměť L3 je výhodná pro pracovní postupy s následujícími charakteristikami:
- Náhodný přístup k souborům: Úlohy, které zahrnují časté čtení různých, nesekvenčních částí souborů, můžou díky mezipaměti L3 výrazně snížit latenci.
- Vysoký poměr čtení a zápisu: Vzhledem k tomu, že mezipaměť L3 primárně zrychluje čtení, nejvíce z toho těží pracovní postup s dominantní komponentou čtení.
- Ukládání často používaných "horkých" dat do mezipaměti: Mezipaměť L3 automaticky identifikuje a ukládá často používaná data, což zlepšuje výkon při opakovaném přístupu.
- Streamování a souběžný přístup k souborům (do určité míry): I když náhodný přístup vidí největší výhodu, pracovní postupy se streamováním a souběžným přístupem můžou také zaznamenat určitá vylepšení výkonu s mezipamětí L3.
Kdy zvolit mezipaměť L3:
-
- Pokud je primárním kritickým bodem výkonu náhodné čtení latence pro data i metadata.
- Chcete-li rozšířit efektivní kapacitu paměti uzlů bez nákladů na více paměti RAM.
- Pro úlohy, které vykazují významné množství opětovného čtení dat a metadat, která byla nedávno vyřazena z L2.
- Pro uzly třídy archiv, kde je rozhodující výkon metadat pro procházení systémem souborů.
- Když je požadováno jednodušší zvýšení výkonu čtení typu "nastav a zapomeň" bez výrazných režijních nákladů na konfiguraci.
Kdy zvolit akceleraci metadat: - Když jsou operace metadat (vyhledávání, přístup, úpravy) primárním kritickým bodem výkonu.
- Pro úlohy s velkým objemem čtení metadat (akcelerace čtení metadat) nebo čtení i zápisu (zrychlení čtení/zápisu metadat).
- Ve scénářích, jako je seismická interpretace, kde je rychlý přístup k metadatům prvořadý, a to i v případě, že se podkladová data nacházejí v pomalejším úložišti.
- Když je vyžadována podrobná kontrola nad umístěním metadat.
- Při rozšíření výhod čtení metadat na uzly bez místních disků SSD je nutné (použití GNA s akcelerací čtení metadat na jiných uzlech).
- Úlohy, jako jsou domovské adresáře, pracovní postupy s velkým výčtem souborů a aktivity vyžadující četná porovnání, často vykazují vysokou aktivitu čtení metadat. V takových případech může přímé zrychlení přístupu k metadatům vést k výraznému zlepšení výkonu
Porozumění strategiím metadat:
Strategie metadat: Namísto ukládání dat do mezipaměti lze disky SSD nakonfigurovat tak, aby primárně ukládaly a urychlovaly operace metadat. Tato strategie může být výhodná pro úlohy s velkým objemem přístupu k metadatům, jako je mnoho malých souborů, časté vyhledávání adresářů a úlohy úlohy náročné na metadata. OneFS podporuje různé strategie disků SSD s metadaty, včetně čtení a zápisu metadat.
Čtení metadat: Disky SSD se primárně používají k urychlení operací čtení metadat.
Zápis metadat: Disky SSD se používají k urychlení operací zápisu metadat.
- Výhody strategie metadat nad L3 cache:
- Akcelerace metadat nabízí cílenější a podrobnější kontrolu nad tím, jak se SSD používají ke zvýšení výkonu metadat pro konkrétní datové sady a pracovní postupy. Mezipaměť L3 je na druhé straně obecnější vrstva mezipaměti, která přináší výhody širší škále úloh, zejména těm, které mají opakovaný přístup k náhodnému čtení dat i metadat. Zatímco mezipaměť L3 vyniká při zlepšování výkonu čtení často používaných dat, vyhrazená strategie metadat může nabídnout konkrétní výhody:
- Vylepšený výkon metadat: U úloh, kde jsou operace s metadaty kritickým bodem (např. otevírání, zavírání, přejmenování, výpis velkého počtu souborů), může vyhrazení disků SSD pro metadata výrazně snížit latenci a zlepšit celkovou propustnost.
- Vylepšený výkon nástroje Job Engine: Některé úlohy modulu úloh OneFS jsou náročné na metadata. Urychlení přístupu k metadatům může vést k rychlejšímu dokončení těchto úloh.
- Předvídatelný výkon pro úlohy náročné na metadata: V prostředích s konzistentním vzorem vysoké aktivity metadat může vyhrazená strategie metadat poskytovat předvídatelnější a trvalejší vylepšení výkonu v porovnání s mezipamětí založenou na vyřazování.
- Některé aplikace a pracovní postupy generují neúměrně vysoký počet operací metadat ve srovnání se skutečnými čteními a zápisy dat. Mezi příklady patří archivace souborů, správa mediálních aktiv, automatizace elektronického návrhu (EDA), prostředí pro vývoj softwaru s častými kompilacemi a genomické kanály, které zahrnují četné přístupy k malým souborům a analýzy. V těchto případech se latence spojená s přístupem k metadatům a manipulací s nimi může stát významným kritickým bodem výkonu
- Operace, které zahrnují procházení složitých adresářových struktur nebo výpis obsahu mnoha adresářů, jsou silně závislé na výkonu metadat. Akcelerace metadat zajišťuje, že systém může rychle přistupovat k informacím o inodu a položkám adresáře, což tyto operace výrazně urychluje ve srovnání se spoléháním se i na mezipaměť L3, která by mohla tyto informace vyloučit z důvodu omezení kapacity nebo méně častého přístupu
- Zálohování, replikace a migrace: Tyto úlohy správy dat často zahrnují rozsáhlé skenování a zpracování metadat. Rychlejší přístup k metadatům prostřednictvím akcelerace může výrazně zkrátit čas potřebný k dokončení těchto úloh, minimalizovat narušení primárních úloh a zlepšit provozní efektivitu.
- Vyhledávání a indexování: Když uživatelé nebo automatizované procesy musí vyhledávat konkrétní soubory na základě jejich atributů metadat (např. název, velikost, datum změny), zrychlený přístup k metadatům umožňuje rychlejší provádění dotazů. To je relevantní pro řešení, jako je MetadataIQ, která indexují metadata systému souborů pro efektivní dotazování a zjišťování dat ve více clusterech
- Kdy zvolit metadata:
- Náročné procházení adresářů, operace prohledávání souborů nebo dat, indexování.
- Operace se soubory, jako je otevírání, zavírání, mazání, vytváření adresářů (mkdir).
- Operace vyhledávání, getattr a přístupu.
- Domovské adresáře, zejména ty s mnoha objekty.
- Pracovní postupy zahrnující velký výčet nebo porovnání.
- Interpretace seismických dat, kde je včasnost metadat kritická.
- Akcelerace metadat může u těchto typů aktivit přinést výrazné zlepšení výkonu, zvýšit propustnost a snížit latenci
Shrnutí: Kdy zvolit
-
- Zvolte strategii akcelerace metadat (čtení metadat nebo čtení/zápis metadat), pokud je vaše úloha silně zaujatá vůči operacím, které přistupují k metadatům souborů nebo je upravují (procházení, vyhledávání, indexování, vytváření, odstraňování a úpravy atributů).
- Pokud je vaše úloha primárně náročná na čtení metadat a chcete využít menší kapacitu SSD, zvolte možnost Metadata Read Acceleration.
- Akceleraci čtení/zápisu metadat zvolte , pokud vaše úloha zahrnuje významné množství zápisů metadat, vyžaduje rychlejší mazání snímků nebo úlohy HPC s malými soubory, jako je EDA, využívá vložené malé soubory na paměti flash. Ujistěte se, že máte dostatečnou kapacitu SSD.
- Zvažte GNA , pokud máte smíšený cluster (uzly s disky SSD a bez nich) a potřebujete urychlit čtení metadat pro data umístěná v uzlech mimo SSD v clusteru. To je důležité pro úlohy náročné na metadata, které jsou rozložené.
- Akcelerace globálního oboru názvů (GNA): GNA je starší mechanismus (určený k nahrazení mezipamětí L3, pokud mají všechny uzly disky SSD), který umožňuje fondům uzlů bez disků SSD využívat disky SSD jinde v clusteru ukládáním dalších zrcadlení metadat na tyto disky SSD. Tím se urychlí operace čtení metadat pro data uložená ve fondech pouze pro pevné disky. Mezipaměť L3 a GNA mohou existovat společně ve stejném clusteru, ale obvykle fungují na různých fondech uzlů.
- Zvažte mezipaměť L3 , pokud vaše úloha zahrnuje významná náhodná čtení, výhody rozšířeného ukládání do mezipaměti pro velkou pracovní sadu nebo potřebuje vylepšený výkon modulu úloh, pokud vaše uzly mají disky SSD.
Nástroje a příkazy:
- Performance Monitoring: Pomocí nástrojů jako InsightIQ, CloudIQ a MetadataIQ můžete sledovat stav clusteru, metriky výkonu a prognózovat využití. Software InsightIQ dokáže sledovat trendy výkonu, identifikovat vzorce a provádět analýzu souborů. Může také pomoct odhadnout, kdy cluster dosáhne maximální kapacity. Aplikace CloudIQ poskytuje přehled o výkonu clusteru. Software MetadataIQ usnadňuje indexování dat a dotazování napříč clustery a lze jej použít pro správu životního cyklu dat a pochopení distribuce dat.
- Nástroj isi_cache_stats může pomoci určit velikost pracovní datové sady, která je důležitá pro určení velikosti disků SSD pro mezipaměť L2 a L3. Obecným pravidlem je, že kapacita L2 + kapacita L3 by měla být >= 150 % velikosti pracovní sady.
- MetadataIQ (OneFS 9.10+): Nasaďte a nakonfigurujte software MetadataIQ pro indexování a vytváření globálního katalogu metadat napříč clustery. Pomocí řídicího panelu Kibana můžete vizualizovat distribuci dat, počty souborů a atributy metadat. To vám pomůže pochopit složení vašich dat a to, jak metadata rostou. Pravidelné synchronizace udržují databázi metadat aktualizovanou.
- Software InsightIQ poskytuje sestavy o kapacitě clusteru, včetně celkové, zřízené a využité kapacity, což umožňuje předpovídat potřeby úložiště na základě historických trendů. Dokáže monitorovat výkon úloh, latenci, IOPS a propustnost, což umožňuje detekovat potenciální úzká místa s rostoucím objemem dat. Analytické sestavy systému souborů InsightIQ mohou zobrazovat počet souborů a distribuci velikosti, což vám poskytne přehled o rozsahu a složení dat, což přímo souvisí s růstem počtu LIN.