Kleine Objekte, große Wirkung: Wie ObjectScale die Effizienz des Daten-Storage verbessert

Erfahren Sie, wie Dell ObjectScale die Objektspeicherung kleiner Dateien in KI-Workflows mit effizienter Chunk-Storage-Technologie für Skalierbarkeit und Langlebigkeit optimiert.

Die Performance des Objektspeichers für kleine Dateien ist entscheidend. Und Chunk-Speicher ist der Schlüssel dazu. Dabei handelt es sich um ein relativ technisches Detail auf niedriger Ebene, aber es ist wichtig, das Konzept und seine Vorteile zu verstehen, da kritische KI-Datenpipelines auf All-Flash-Objektspeicher migriert werden.

Um wie viele kleine Dateien geht es in den heutigen Datenpipelines? In großem Maßstab sind es Milliarden. Dabei kann es sich um Metadaten handeln, die bei der Verarbeitung unstrukturierter Daten zu semistrukturierten Daten für die Feinabstimmung von großen Sprachmodellen (LLMs) generiert werden. Oder die Dateien stammen aus einer Data-Lakehouse-Architektur mit riesigen offenen Tabellendatenbanken.

Dell ObjectScale ist ein Objektspeicher, der speziell für Unternehmen entwickelt wurde, die mit den Anforderungen moderner Daten im KI-Zeitalter konfrontiert sind. ObjectScale hebt sich von der Konkurrenz durch seine Performance bei kleinen Dateien, seine Wiederherstellbarkeit und seine Langlebigkeit ab und verbessert so die Effizienz des Daten-Storage erheblich. Hier sind einige Gründe dafür.

Nutzen von Chunks

ObjectScale packt Dateien in 128-MB-Blöcke, so genannte Chunks. Diese Chunks bieten dem System erhebliche Vorteile bei der Verarbeitung großer Mengen kleiner Objekte.

Nehmen wir beispielsweise ein System mit Hunderten von Millionen oder Milliarden sehr kleiner 10-KB-Metadatendateien. ObjectScale kann über 10.000 dieser Dateien in einem einzigen Chunk speichern. Dieser Chunk wird dann löschkodiert und die resultierenden Shards werden zur Gewährleistung der Fehlertoleranz auf Racks und Nodes verteilt. Der Block wird mit einem sauberen Storage-Overhead von 25 % (mit 10+2-Löschcodierung) vorhersehbar auf der Festplatte abgelegt.

Vergleichen Sie dieses Szenario mit einem System, das keinen Chunk-Speicher verwendet. Für so kleine Objekte ist eine individuelle Löschcodierung keine gute Option (sie könnte zu einem Overhead von über 600 % führen). Diese Systeme greifen in der Regel auf doppelte oder dreifache Spiegelung zurück (200 % oder 300 % Overhead). Multiplizieren Sie das mit Hunderten von Millionen oder Milliarden.

Schnellerer Wiederaufbau mit geringerem Storage-Overhead

Betrachten Sie als Nächstes, wie Chunking die Ergebnisse in einem Fehlerszenario beeinflussen kann.

In einem nicht auf Chunk-Speicher basierenden Objektsystem würde der Ausfall eines 61-TB-NVMe-Laufwerks bedeuten, dass das System Milliarden von Objekt-Shards neu erstellen muss. Wir sprechen hier von Wochen bis Monaten Wiederaufbauzeit für einen einzigen Laufwerksausfall. Was passiert, wenn ein gesamter Storage Node mit 24 Laufwerken ausfällt? Die Wiederaufbauten würden das System ständig belasten.

Der ObjectScale-Chunk-Speicher reduziert die Gesamtzahl der Shards, die in einem Fehlerszenario neu erstellt werden müssen, um ein Vielfaches (von Milliarden auf Millionen). Die Wiederaufbauzeiten auf großen NVMe-Laufwerken können von Wochen und Monaten auf nur wenige Stunden verkürzt werden, während der Storage-Overhead gering bleibt. Es ist wirklich die einzige verwaltbare Lösung für die Unterstützung großer NVMe-Laufwerke.

Maximale Ausfallsicherheit, Entlastung der CPU

Berücksichtigen Sie auch die Auswirkungen der Datenausfallsicherheit beim Management von Objektspeicher für moderne Workloads wie KI. Um eine unbemerkte Datenbeschädigung zu verhindern, führt der Objektspeicher proaktive Scans der Objekte durch, überprüft Prüfsummen und repariert Fehler.

Wenn jedes einzelne Objekt in einem System einer Prüfsummenprüfung unterzogen werden muss, kann ein aktives System leicht in einen Zustand geraten, in dem diese Scans nie abgeschlossen werden können. Einige Objektsysteme beschränken die Aufnahmegeschwindigkeit, wenn sie in eine Situation geraten, in der Prüfsummenscans nicht abgeschlossen werden können.

ObjectScale hingegen überprüft einzelne Objekte inline, bevor sie in einen Chunk eingefügt werden. Diese Überprüfung muss nicht im Hintergrund erfolgen, da die Prüfsummen auf Segment-/Stripe-Ebene überprüft werden.

Durch die Reduzierung der Anzahl der kontinuierlich zu validierenden Prüfsummen senkt ObjectScale den damit verbundenen Verarbeitungsaufwand erheblich. Dadurch werden CPU-Zyklen freigesetzt, sodass die Storage Nodes ihre Hauptaufgabe ausführen können, nämlich das Lesen und Schreiben von Daten.

Skalieren Sie die Effizienz Ihres KI-Storage mit ObjectScale

Der leistungsstarke Chunk-Store-Mechanismus von Dell ObjectScale bewältigt die Herausforderungen beim Management von Milliarden kleiner Objekte. Einige unserer Kunden betreiben sogar ObjectScale-Umgebungen mit über 100 Milliarden Objekten in einem einzigen Bucket. Wir laden Sie ein, sich mit uns in Verbindung zu setzen und mehr darüber zu erfahren, wie ObjectScale überragende Storage-Effizienz, Ausfallsicherheit und Resilienz bietet und damit eine unverzichtbare Grundlage für leistungsstarke KI- und Analyse-Workflows schafft.

About the Author: Gregory Shiff