Kleine objecten, grote impact: hoe ObjectScale de efficiëntie in datastorage verbetert

Boost AI-datastorage met Dell ObjectScale: ongeëvenaarde efficiëntie, duurzaamheid en betrouwbaarheid op maat voor miljarden kleine bestanden.

Objectstorageprestaties voor kleine bestanden zijn belangrijk. En chunk-store is de sleutel hiertoe. Dit is een vrij basaal technisch detail, maar het is belangrijk om het concept en de voordelen ervan te begrijpen, aangezien kritieke AI-datapipelines migreren naar all-flash-objectstorage.

Over hoeveel kleine bestanden hebben we het in de huidige datapipelines? Op schaal zijn er miljarden bestanden. Deze bestanden kunnen metadata zijn die worden gegenereerd tijdens de verwerking van niet-gestructureerde data naar semigestructureerde data voor het afstemmen van grote taalmodellen (LLM). Of de bestanden kunnen afkomstig zijn van een data lakehouse-architectuur met enorme open tabeldatabases.

Dell ObjectScale is objectstorage die speciaal is gebouwd voor ondernemingen die worstelen met de eisen van moderne data in het AI-tijdperk. ObjectScale onderscheidt zich van de concurrentie qua prestaties van kleine bestanden, herstelbaarheid en duurzaamheid, waardoor de efficiëntie van datastorage drastisch wordt verbeterd. Dit zijn enkele redenen waarom dat het geval is.

Profiteren van blokken

ObjectScale verpakt bestanden in blokken van 128 MB. Deze blokken bieden het systeem grote voordelen bij het omgaan met enorme aantallen kleine objecten.

Neem bijvoorbeeld een systeem met honderden miljoenen of miljarden zeer kleine metadatabestanden van 10.000 bytes. ObjectScale kan meer dan 10.000 van deze bestanden in één blok opslaan. Zo’n blok ondergaat vervolgens wiscodering en de resulterende fragmenten worden met het oog op fouttolerantie verdeeld tussen racks en knooppunten. Het blok wordt voorspelbaar op de schijf geplaatst met een schone storageoverhead van 25 procent (met 10+2 wiscodering).

Vergelijk dit scenario met een systeem waarbij geen chunk-store wordt gebruikt. Voor dergelijke kleine objecten is individuele wiscodering een slechte optie (dit kan leiden tot een overhead van meer dan 600%). Deze systemen maken meestal gebruik van dubbele of drievoudige mirroring (200% of 300% overhead). Probeer dat te vermenigvuldigen met honderden miljoenen of miljarden.

Sneller opnieuw opbouwen met lagere storageoverhead

Overweeg vervolgens hoe het opdelen in blokken de resultaten in een foutscenario kan bepalen.

Op een objectsysteem dat niet op chunk-store is gebaseerd, zou het uitvallen van een NVMe-schijf van 61 TB betekenen dat het systeem miljarden objectfragmenten opnieuw moet maken. We hebben het over weken tot maanden aan hersteltijd voor een storing bij één schijf. Wat als een heel storageknooppunt met 24 schijven uitviel? Het opnieuw opbouwen daarvan zou een constante belasting voor het systeem vormen.

De ObjectScale chunk-store vermindert het totale aantal fragmenten dat in een foutscenario opnieuw moet worden gemaakt met een factor tien (van miljarden naar miljoenen). De herbouwtijd op grote NVMe-schijven wordt verkort, van weken en maanden tot slechts enkele uren, terwijl de storageoverhead laag blijft. Het is echt de enige haalbare oplossing voor grote NVMe-support.

Maximale duurzaamheid, waardoor CPU-cycli vrijkomen

Houd ook rekening met de impact van dataduurzaamheid bij het beheren van objectstorage voor moderne workloads zoals AI. Om stille databeschadiging te voorkomen, worden objecten door objectstorage proactief gescand, controlesommen geverifieerd en fouten hersteld.

Als elk afzonderlijk object in een systeem moet worden gecontroleerd, kan een actief systeem gemakkelijk in een staat terechtkomen waarin die scans nooit kunnen worden voltooid. Sommige objectsystemen beperken de opnamesnelheden als ze in een situatie komen waarin checksum-scans niet kunnen worden voltooid.

ObjectScale controleert individuele objecten daarentegen inline voordat deze in een blok worden geplaatst. Dit hoeft niet op de achtergrond te worden gecontroleerd, omdat checksums worden geverifieerd op segment-/stripe-niveau.

Door het aantal checksums te verminderen dat continu moet worden gevalideerd, vermindert ObjectScale de bijbehorende verwerkingsoverhead enorm. Hierdoor worden CPU-cycli vrijgemaakt, zodat de storageknooppunten hun hoofdtaak kunnen uitvoeren: data lezen en schrijven.

Schaal de efficiëntie van AI-storage op met ObjectScale

Het krachtige chunk-storemechanisme van Dell ObjectScale pakt de uitdagingen van het beheren van miljarden kleine objecten rechtstreeks aan. Sommige van onze klanten draaien zelfs ObjectScale-omgevingen met meer dan 100 miljard objecten in één bucket. We nodigen u uit om contact op te nemen en meer te weten te komen over hoe ObjectScale superieure storage-efficiëntie, duurzaamheid en veerkracht biedt, waardoor deze oplossing een onmisbare basis vormt voor krachtige AI- en analytics-workflows.

About the Author: Gregory Shiff