PowerScale | Forståelse af L3-cache- og metadatastrategier
Summary: PowerScale giver fleksibilitet i, hvordan solid state-drev (SSD'er) i en nodepulje bruges til at forbedre ydeevnen. To primære strategier er L3-cache og metadataacceleration. L3-cache er designet til at cachelagre ofte anvendte data og metadata for at forbedre læseydelsen. Metadataacceleration dedikerer SSD'er til lagring og acceleration af metadatahandlinger, hvilket kan være fordelagtigt for metadataintensive arbejdsbelastninger. ...
Instructions
Forståelse af L3-cache:
L3-cache: L3-cache er et sekundært cacheniveau, der findes på SSD'er og supplerer den primære hukommelsescache (L1 og L2). Det fungerer som en fjernelsescache, der gemmer ofte tilgængelige data og metadata for at forbedre læseforsinkelsen. L3-cache er mest fordelagtig for arbejdsgange, der involverer tilfældig filadgang. Det kan fungere i en metadata-only-tilstand til lagernoder i arkivserier. Aktivering af L3-cache i en nodepulje med eksisterende data på SSD'er kræver, at drevene evakuerer disse data til harddiske, før SSD'erne kan bruges til cachelagring. Deaktivering af L3-cachen er generelt en hurtigere handling.
Arbejdsprocesser, der drager fordel af L3-cache:
-
- L3-cache er gavnlig for arbejdsprocesser med følgende egenskaber:
- Tilfældig filadgang: Arbejdsbelastninger, der involverer hyppig læsning af forskellige, ikke-sekventielle dele af filer, kan opleve betydelige ventetidsreduktioner med L3-cache.
- Højt læse-til-skrive-forhold: Da L3-cache primært accelererer læsninger, gavner arbejdsgangen med en dominerende læsekomponent mest.
- Cachelagring af ofte anvendte "varme" data: L3-cache identificerer og gemmer automatisk ofte anvendte data, hvilket forbedrer ydeevnen ved gentagen adgang.
- Streaming og samtidig filadgang (til en vis grad): Mens tilfældig adgang ser de største fordele, kan arbejdsprocesser med streaming og samtidig adgang også opleve nogle ydeevneforbedringer med L3-cache.
Hvornår skal du vælge L3-cache:
-
- Når den primære flaskehals i ydeevnen er tilfældig læseventetid for både data og metadata.
- At udvide nodernes effektive hukommelseskapacitet uden at pådrage sig omkostningerne ved mere RAM.
- For arbejdsbelastninger, der udviser en betydelig mængde genlæsning af data og metadata, der for nylig er blevet fjernet fra L2.
- Til noder i arkivklassen, hvor metadataydeevnen for filsystemgennemgang er kritisk.
- Når der ønskes en enklere, "indstil og glem"-læseydelsesforbedring uden væsentlige konfigurationsomkostninger.
Hvornår skal du vælge Metadata-acceleration: - Når metadatahandlinger (opslag, adgang, ændringer) er den primære flaskehals for ydeevnen.
- For arbejdsbelastninger med en stor mængde metadatalæsninger (metadatalæsningsacceleration) eller både læsning og skrivning (metadata læse-/skriveacceleration).
- I scenarier som seismisk fortolkning, hvor hurtig adgang til metadata er altafgørende, selvom de underliggende data ligger på langsommere lager.
- Når detaljeret kontrol over, hvor metadata er placeret, er påkrævet.
- Når du udvider metadata, er det nødvendigt at læse fordele til noder uden lokale SSD'er (ved hjælp af GNA med metadatalæsningsacceleration på andre noder).
- Arbejdsbelastninger som f.eks. startmapper, arbejdsgange med omfattende filoptælling og aktiviteter, der kræver adskillige sammenligninger, udviser ofte høj metadata-læseaktivitet. I sådanne tilfælde kan fremskyndelse af metadataadgang direkte føre til betydelig forbedring af ydeevnen
Forståelse af metadatastrategier:
Metadatastrategi: I stedet for at cachelagre data kan SSD'er konfigureres til primært at gemme og fremskynde metadatahandlinger. Denne strategi kan være fordelagtig for arbejdsbelastninger med en stor mængde metadataadgang, f.eks. mange små filer, hyppige mappeopslag og metadataintensive job engine-opgaver. OneFS understøtter forskellige metadata-SSD-strategier, herunder metadata-læsning og metadata-skrivning.
Metadata-læs: SSD'er bruges primært til at fremskynde metadatalæsningshandlinger.
Metadata-skrivning: SSD'er bruges til at fremskynde handlinger til metadataskrivning.
- Fordele ved metadatastrategi i forhold til L3-cache:
- Metadataacceleration giver mere målrettet og detaljeret kontrol over, hvordan SSD'er bruges til at forbedre metadataydeevnen for specifikke datasæt og arbejdsgange. L3-cache er derimod et mere generelt cachelag, der gavner en bredere vifte af arbejdsbelastninger, især dem med gentagen tilfældig læseadgang til både data og metadata. Mens L3-cache udmærker sig ved at forbedre læseydelsen for ofte tilgængelige data, kan en dedikeret metadatastrategi give specifikke fordele:
- Forbedret metadataydeevne: For arbejdsbelastninger, hvor metadatahandlinger er flaskehalsen (f.eks. åbning, lukning, omdøbning, liste over et stort antal filer), kan dedikering af SSD'er til metadata reducere ventetiden betydeligt og forbedre den samlede overførselshastighed.
- Forbedret ydeevne for Job Engine: Visse opgaver i OneFS-jobprogrammet kræver metadata. Hurtigere adgang til metadata kan føre til hurtigere fuldførelsestider for disse job.
- Forudsigelig ydeevne til metadatatunge workloads: I miljøer med et ensartet mønster af høj metadataaktivitet kan en dedikeret metadatastrategi give mere forudsigelige og vedvarende forbedringer af ydeevnen sammenlignet med en fjernelsesbaseret cache.
- Visse programmer og arbejdsprocesser genererer et uforholdsmæssigt stort antal metadatahandlinger sammenlignet med faktiske datalæsninger og -skrivninger. Eksempler omfatter filarkivering, medieaktivstyring, elektronisk designautomatisering (EDA), softwareudviklingsmiljøer med hyppige kompileringer og genomiske pipelines, der involverer adskillige små filadgange og analyser. I disse tilfælde kan latenstiden forbundet med adgang til og manipulation af metadata blive en betydelig præstationsflaskehals
- Handlinger, der involverer navigering i komplekse mappestrukturer eller liste over indholdet af mange mapper, er stærkt afhængige af metadataydelsen. Metadataacceleration sikrer, at systemet hurtigt kan få adgang til inodeoplysningerne og mappeposterne, hvilket fremskynder disse operationer betydeligt sammenlignet med at stole på selv en L3-cache, der muligvis har fjernet disse oplysninger på grund af kapacitetsbegrænsninger eller mindre hyppig adgang
- Sikkerhedskopiering, replikering og migrering: Disse datastyringsopgaver involverer ofte omfattende metadatascanning og -behandling. Hurtigere adgang til metadata via acceleration kan reducere den tid, det tager at fuldføre disse job, betydeligt, minimere afbrydelser af primære arbejdsbelastninger og forbedre driftseffektiviteten.
- Søgning og indeksering: Når brugere eller automatiserede processer skal søge efter bestemte filer baseret på deres metadataattributter (f.eks. navn, størrelse, ændringsdato), giver accelereret metadataadgang mulighed for hurtigere udførelse af forespørgsler. Dette er relevant for løsninger som MetadataIQ, der indekserer filsystemets metadata for effektiv forespørgsel og dataopdagelse på tværs af flere klynger
- Hvornår skal du vælge metadata:
- Kraftig mappebrowsing, fil- eller datasøgning, indeksering.
- Filoperationer som åbning, lukning, sletning, oprettelse af mapper (mkdir).
- Opslags-, getattr- og adgangshandlinger.
- Hjemmemapper, især dem med mange objekter.
- Arbejdsprocesser, der involverer tung optælling eller sammenligninger.
- Seismisk datafortolkning, hvor metadata aktualitet er kritisk.
- Metadataacceleration kan give betydelige forbedringer af ydeevnen for disse typer aktiviteter, øge gennemløbet og mindske ventetiden
Opsummering: Hvornår skal man vælge
-
- Vælg en strategi for metadataacceleration (læsning af metadata eller læsning/skrivning af metadata), hvis din arbejdsbyrde er stærkt forudindtaget i retning af handlinger, der giver adgang til eller ændrer filmetadata (browsing, søgning, indeksering, oprettelse, sletning, ændring af attributter).
- Vælg Metadatalæsningsacceleration , hvis din arbejdsbelastning primært er metadatalæsekrævende, og du vil bruge mindre SSD-kapacitet.
- Vælg læse-/skriveacceleration af metadata , hvis din arbejdsbelastning involverer en betydelig mængde metadataskrivninger, kræver hurtigere sletning af snapshots eller er en lille HPC-filarbejdsbelastning som EDA, der drager fordel af indlejrede små filer på flash. Sørg for, at du har tilstrækkelig SSD-kapacitet.
- Overvej GNA , hvis du har en blandet klynge (noder med og uden SSD'er) og skal fremskynde metadatalæsninger for data på ikke-SSD-noder på tværs af klyngen. Dette er relevant for metadataintensive arbejdsbelastninger, der er spredt.
- Acceleration af globalt navneområde (GNA): GNA er en ældre mekanisme (beregnet til at blive erstattet af L3-cache, når alle noder har SSD'er), der gør det muligt for nodepuljer uden SSD'er at udnytte SSD'er andre steder i klyngen ved at gemme ekstra metadataspejle på disse SSD'er. Dette fremskynder metadatalæsningshandlinger for data, der er gemt i puljer, der kun er på harddiske. L3-cache og GNA kan eksistere side om side i den samme klynge, men fungerer typisk i forskellige nodepuljer.
- Overvej L3-cache , hvis din arbejdsbyrde involverer betydelige vilkårlige læsninger, drager fordel af udvidet cachelagring til et stort arbejdssæt eller har brug for forbedret Job Engine-ydeevne, forudsat at dine noder har SSD'er.
Værktøjer og kommandoer:
- Overvågning af ydeevne: Brug værktøjer som InsightIQ, CloudIQ og MetadataIQ til overvågning af klyngetilstand, ydeevnemålinger og brugsprognoser. InsightIQ kan spore tendenser for ydeevne, identificere mønstre og udføre filanalyser. Det kan også hjælpe med at vurdere, hvornår en klynge når maksimal kapacitet. CloudIQ giver indsigt i klyngers ydeevne. MetadataIQ muliggør dataindeksering og forespørgsler på tværs af klynger og kan bruges til administration af datalivscyklus og forståelse af datadistribution.
- Hjælpeprogrammet isi_cache_stats kan hjælpe med at bestemme størrelsen på arbejdsdatasættet, hvilket er relevant for dimensionering af SSD'er til L2- og L3-cache. En generel regel antyder, at L2-kapacitet + L3-kapacitet skal være >= 150% af arbejdssættets størrelse.
- MetadataIQ (OneFS 9.10+): Udrul og konfigurer MetadataIQ for at indeksere og oprette et globalt katalog over metadata på tværs af klynger. Brug Kibana-dashboardet til at visualisere datadistribution, filantal og metadataattributter. Dette hjælper med at forstå sammensætningen af dine data, og hvordan metadata vokser. Periodiske synkroniseringer holder metadatadatabasen opdateret
- InsightIQ leverer rapporter om klyngekapacitet, herunder samlet, klargjort og brugt kapacitet, så du kan forudsige storagebehov baseret på historiske tendenser. Den kan overvåge workloadens ydeevne, ventetid, IOPS og overførselshastighed, så du kan registrere potentielle flaskehalse, efterhånden som data vokser. InsightIQs File System Analytics-rapporter kan vise filantal og størrelsesfordeling, hvilket giver dig indsigt i omfanget og sammensætningen af dine data, som direkte relaterer til væksten i LIN-antallet.