ObjectScale.Next: Ein Jahr unermüdliche Leistung für KI-Daten

Die KI legt die Latte für Storage immer höher. GPUs können nicht im Leerlauf auf I/O warten. Streaming‑Funktionen, Einbettungen und Zwischenartefakte dürfen nicht durch Engpässe bei kleinen‑Objekten gedrosselt werden. LLM‑Inferenz kann nicht skaliert werden, wenn der KV‑Cache im GPU‑Speicher gebunden ist, anstatt Beschleuniger mit Leitungsgeschwindigkeit zu versorgen.

Seit der Version 4.0 vor nur einem Jahr hat ObjectScale die Performanceverbesserungen in den Bereichen große und kleine Objekte, RDMA, GPU‑fähige Datenpfade und KV‑Cacheauslagerung umgesetzt, diese mit der neuesten All‑Flash‑Servertechnologie von Dell PowerEdge kombiniert und gleichzeitig die Exascale‑Architektur, die Effizienz und die Einfachheit, auf die sich Unternehmen verlassen, beibehalten.

Dieser Fokus auf Performance ist ein wichtiger Grund, warum ObjectScale von CRN 2025 zum Produkt des Jahres für Storage der Enterprise‑Klasse gekürt wurde – eine redaktionelle Auszeichnung, die den Einfluss von ObjectScale auf die Bewältigung der schwierigsten Herausforderungen im Bereich Unternehmensdaten von heute unterstreicht.

Eine Plattform für noch mehr Performance

Bei softwaredefinierten ObjectScale‑Bereitstellungen auf qualifizierten Dell PowerEdge‑Servern haben interne Tests gezeigt, dass ein Lesedurchsatz von bis zu 40 GB/s1 pro Node erreicht wird – das ist bis zu 8‑mal schneller¹ als bei All‑Flash‑Objektplattformen der vorherigen Generation. Damit erhalten KI‑Teams eine kompakte Engine mit hoher Bandbreite für große Trainingssets, Prüfpunkte und Workloads unterschiedlicher Größe.

Die Vorteile sind auch noch weit außerhalb des Labors deutlich spürbar. Heute bewährt sich ObjectScale in einigen der anspruchsvollsten Umgebungen:

Hochfrequenzhandel in großem Umfang: Ein großes New Yorker Hochfrequenzhandelsunternehmen verarbeitet täglich mehr als 30 Milliarden Transaktionen und setzt auf ObjectScale, um seine Handels‑, Risiko‑ und Analyse‑Engines kontinuierlich mit Daten zu versorgen.
Globale Finanzdienstleistungen: Ein globales Finanzunternehmen verwendet eine festplattenbasierte ObjectScale‑Umgebung mit mehreren Standorten, um täglich 1,5 Milliarden Transaktionen zu verarbeiten und gleichzeitig mehr als 1.000 KI‑, Analyse‑ und Backup‑Workloads über automatisierten Selfservice abzuwickeln.
Hochfrequenzhandel im Vereinigten Königreich: Ein im Vereinigten Königreich ansässiges Hochfrequenzhandelsunternehmen nutzt einen aggregierten Lesedurchsatz von rund 280 GB/s auf einem kleinen ObjectScale Proof‑of‑Concept‑Cluster weiterhin.

Kleine Objekte, große Performance: Chunk‑Speicher und Key‑Value‑Optimierungen

Moderne KI‑Pipelines werden von kleinen Objekten dominiert: Protokollen, Metriken, Funktionen, Tabellensegmenten, Vektorblöcken und Zwischenartefakten aus dem Training. Wenn die Objekt‑Tier kleine Objekte nicht effizient verarbeiten kann, verlangsamt sich der gesamte nachgelagerte Prozess. Mit ObjectScale können KundInnen sicher KI‑Pipelines erstellen, die auf kleinen Objekten basieren.

Dies geschieht über eine Chunk‑Speicher‑Engine, die viele kleine Objekte in 128 MB Blöcke packt, bevor eine Fehlerkorrekturcodierung angewendet und die Daten auf die Nodes verteilt werden. Bei typischen 10 KB Dateien können mehr als 10.000 Objekte in einem einzigen Block gespeichert werden, was den Metadatenaufwand reduziert und die Wiederherstellung vereinfacht.

Was das für Kunden bedeutet:

Höherer Durchsatz bei kleinen Objekten und geringere Latenz – insbesondere bei den All‑Flash ObjectScale XF960 Clustern und den HDD‑basierten X560 Clustern, die für das Lesen kleiner Objekte optimiert sind.
Schnellere Wiederherstellung und besser vorhersehbare Performance – Dank Chunk‑basiertem Erasure Coding sinkt die Anzahl der Shards, die nach Festplatten‑ oder Node‑Ausfällen wiederhergestellt werden müssen, von Milliarden auf Millionen, sodass große NVMe‑Laufwerke innerhalb von Stunden statt Wochen wiederhergestellt werden können.
Weniger CPU‑Last durch Hintergrundscans – ObjectScale berechnet die Prüfsummen der Objekte direkt während der Verarbeitung und überprüft sie anschließend auf Stripe‑Ebene. Dadurch werden CPU‑Zyklen für aktive Lese‑ und Schreibvorgänge frei.

In ObjectScale 4.2 geht ein neu gestalteter Schlüsselwertspeicher noch einen Schritt weiter und bietet etwa viermal höhere Speichereffizienz² sowie um 30–60 % geringere Festplattenauslastung² für Metadaten. Suchvorgänge bleiben schnell und vorhersehbar, selbst wenn die Anzahl von Clustern und Objekten wächst.

Einspeisung von Daten in GPUs und LLMs: S3 über RDMA und KV‑Cache

Je mehr KI‑Teams das Training und die Inferenz ausweiten, um so mehr werden Datenverschiebung und Kontextspeicher zum Engpass, nicht die reine Rechenleistung. ObjectScale‑Versionen der 4. Generation konzentrieren sich auf beides.

S3 über RDMA: Objektzugriff mit hoher Bandbreite und niedriger Latenz

S3 über RDMA (eingeführt in ObjectScale 4.2 und verbessert in Version 4.3) ersetzt herkömmliches TCP durch RDMA für den S3‑Zugriff und bietet erhebliche Vorteile für Clients bei internen Tests:

Bis zu 230 % höherer Durchsatz
Ca. 80 % geringere Latenz
Und bis zu 98 % geringere CPU‑Auslastung …

… im Vergleich zu S3 über TCP.³

Mit Version 4.3 ist S3 über RDMA für ObjectScale im gesamten All‑Flash‑Portfolio verfügbar – also bei der softwaredefinierten ObjectScale‑Lösung auf den Modellen R7725xd, XF960 und EXF900 – und ermöglicht so einen Zugriff auf Objektdaten mit extrem geringer Latenz und hohem Durchsatz.

Durch die Integration des S3‑über‑RDMA‑SDK von Dell mit GPU‑Unterstützung und einem RoCEv2‑Netzwerk‑Stack umgeht ObjectScale herkömmliche TCP‑ und CPU‑Engpässe und erstellt so einen nahezu direkten Pfad zwischen GPUs und NVMe SSDs im Objektspeicher für anspruchsvolle KI‑Pipelines.

KV‑Cache: Umwandlung von ObjectScale in einen Inferenzbeschleuniger

Wenn LLMs in die Produktion wechseln, wird der Key‑Value (KV) Cache unverzichtbar. Statt die Aufmerksamkeitsstatus für jedes Token neu zu berechnen, verwenden Inferenz‑Frameworks den KV‑Cache erneut – dieser Cache wächst jedoch schnell über den GPU‑Speicher hinaus. Die Auslagerung des KV‑Cache zu ObjectScale trägt dazu bei, schnellere und reaktionsschnellere KI‑Erfahrungen zu bieten.

Die skalierbare KV‑Cache‑Offload‑Lösung von Dell, die auf ObjectScale und PowerScale basiert, verlagert den KV‑Cache mithilfe von vLLM, LMCache, der NIXL‑Bibliothek von NVIDIA und der RDMA‑beschleunigten S3‑Integration von Dell vom GPU‑Speicher auf einen leistungsstarken, gemeinsam genutzten Speicher.

Benchmarks zeigen:

Bis zu 19‑mal kürzere TTFT (Time to First Token)⁴ im Vergleich zu einer standardmäßigen vLLM‑Konfiguration, die den KV‑Cache auf dem GPU neu berechnet.
Bis zu 5,3‑mal höherer Token‑Durchsatz⁵ und fast 3‑mal höherer Multi‑Turn‑Durchsatz⁵ bei Dell InfoHub‑Tests, selbst bei KV‑Caches mit mehreren Gigabyte, die auf ObjectScale und PowerScale gespeichert sind.
KV‑Cache TTFT von etwa 0,86 Sekunden⁶ auf ObjectScale in direkten Vergleichen mit einer konkurrierenden Engine, womit VAST in veröffentlichten Tests übertroffen wurde.

S3‑Tabellen: KI‑optimierte Analysen ohne ETL‑Drag

In ObjectScale 4.3 (Tech Preview) ermöglichen S3‑Tabellen Apache Iceberg‑basierte tabelleneigene Analysen direkt in ObjectScale‑Buckets. Tabellen befinden sich auf S3 und können von Engines wie Spark, Flink, Trino und Starburst abgefragt werden, ohne dass Daten in separate Datenbanken oder Data Warehouses kopiert werden müssen. Dadurch werden der ETL‑Aufwand und externe Abhängigkeiten reduziert.

Ergebnisse aus internen Tests:

Bis zu 2‑mal schnellere Erfassung⁷
Bis zu 4,5‑mal schnellere Abfragen⁷

gegenüber herkömmlichen, Warehouse‑zentrierten Modellen, während automatisierte Storage‑Rückgewinnung und vereinheitlichtes IAM dazu beitragen, die Performance auf hohem Niveau zu halten und den Betrieb auf Dauer zu vereinfachen. ObjectScale ist nicht mehr nur eine Landingzone, sondern fungiert als aktive, leistungsstarke Analysefläche für KI‑ und BI‑Teams.

Performance ohne Kompromisse bei Skalierbarkeit, Effizienz und Einfachheit

Performance ist nur nützlich, wenn sie mit Skalierbarkeit, Effizienz und Einfachheit einhergeht. ObjectScale‑Versionen der 4. Generation erweitern auch diese Dimensionen:

Ein modernisierter Schlüsselwertspeicher unterstützt globales VDC‑Wachstum von bis zu 122 %⁸ im Vergleich zu früheren Versionen, bei denen viel weniger Arbeitsspeicher und Festplattenspeicher für Metadaten verwendet werden.
Mit der Komprimierung auf Bucket‑Ebene und verschiedenen Algorithmen (Snappy, LZ4, ZSTD, Deflate) können Teams die Geschwindigkeit oder das Verhältnis nach Workload abstimmen, wobei Komprimierungsanalysen Einsparungen in ein FinOps‑Signal verwandeln, anstatt sie als blinde Einstellung zu behandeln.
Die neuen Erasure‑Coding‑Optionen von ObjectScale „24+2″ und „24+4″ senken die Schreibverstärkung um bis zu 75 %⁹, wodurch der Verschleiß der Speichermedien und der Hintergrund‑Overhead reduziert werden, sodass mehr I/O für Anwendungen verfügbar ist. KundInnen profitieren von einer bis zu 25 % schnelleren Erfassung großer Objekte¹⁰ sowie einer bis zu zweimal höheren Schreibleistung bei mittelgroßen Objekten¹¹ auf HDD‑Plattformen mit hoher Kapazität wie EX500.
Ein integrierter Load Balancer, eine verbesserte Speicherplatzrückgewinnung für die geografische Replikation und Cloud‑natives Tooling (Kubernetes COSI, Terraform) sorgen dafür, dass großformatige ObjectScale‑Umgebungen auch bei zunehmendem Wachstum gemanagt werden können.

Das Ergebnis ist eine Plattform, auf der Leistungsverbesserungen und betriebliche Einfachheit Hand in Hand gehen, anstatt Teams zu einer Wahl zwischen beiden zu zwingen.

Warum eine auf Leistung ausgerichtete ObjectScale‑Roadmap wichtig ist

Während KI‑Modelle und Datenpipelines immer komplexer werden, steht bei der Roadmap von ObjectScale weiterhin die Performance an erster Stelle: ob durch die weitere Steigerung des Durchsatzes bei kleinen‑ und großen‑Objekten, die Erweiterung von S3 über RDMA und GPU‑optimierte Datenpfade oder die Vertiefung der Integration mit KV‑Cache, Kontextspeicher und KI‑optimierter Suche.

Für Unternehmen, die ihre nächste Generation von KI und Analysen entwickeln, bedeutet dies ganz einfach: Ihr Objektspeicher wird kein Hindernis für Sie sein.

Quellen

¹Basierend auf einer Analyse von Dell, in der die Objekt‑Leseleistung von ObjectScale 4.2 auf einem PowerEdge R7725xd mit der von ECS 3.8 auf einem ECS EXF900 verglichen wurde, September 2025. Die tatsächlichen Ergebnisse können abweichen.
²Basierend auf einer Analyse von Dell, bei der der Schlüsselwertspeicher von ObjectScale 4.2 mit dem in ObjectScale 4.1 verwendeten verglichen wurde, August 2025. Die tatsächlichen Ergebnisse können abweichen.
³Basierend auf internen Tests von Dell mit ObjectScale S3 über RDMA, Dezember 2025. Die tatsächlichen Ergebnisse können abweichen.
⁴Basierend auf internen Tests von Dell Technologies unter Verwendung des LLaMA‑3.3‑70B‑Instruct‑Modells mit Tensor‑Parallelität = 4. In Tests wurde die TTFT‑Performance (Time to First Token) bei einer KV‑Cachetrefferquote von 100 % gemessen, wobei der vLLM‑Stack von Dell in Kombination mit LMCache und NVIDIA NIXL auf PowerScale‑ und ObjectScale‑Speichersystemen mit einer Standard‑vLLM‑Basiskonfiguration verglichen wurde. Die tatsächlichen Ergebnisse können abweichen. November 2025.
⁵Basierend auf internen Tests von Dell Technologies unter Verwendung des LLaMA‑3.3‑70B‑Instruct‑Modells mit Tensor‑Parallelität = 4. In den Tests wurde der TPS‑Durchsatz (Token pro Sekunde) mithilfe der LMbenchmark‑Suite für Multi‑Turn‑Inferenz gemessen, wobei der vLLM‑Stack von Dell in Kombination mit LMCache und NVIDIA NIXL auf PowerScale‑ und ObjectScale‑Speichersystemen mit einer Basiskonfiguration verglichen wurde, die auf dem Standard‑vLLM mit reinem GPU‑Speicher‑Caching basierte. Die tatsächlichen Ergebnisse können abweichen. November 2025.
⁶Basierend auf internen Tests von Dell Technologies unter Verwendung des LLaMA‑3.3‑70B‑Instruct‑Modells mit Tensor‑Parallelität = 4. In den Tests wurde die Leistung hinsichtlich der Zeit bis zum ersten Token (TTFT) bei einer KV‑Cachetrefferquote von 100 % gemessen. Die tatsächlichen Ergebnisse können abweichen. November 2025.
⁷Basierend auf internen Tests von Dell mit ObjectScale S3 Tables, September 2025. Die tatsächlichen Ergebnisse können abweichen.
⁸Basierend auf einer Analyse von Dell, bei der der Schlüsselwertspeicher von ObjectScale 4.2 mit dem in ObjectScale 4.1 verwendeten verglichen wurde, August 2025. Die tatsächlichen Ergebnisse können abweichen.
⁹Basierend auf internen Tests von Dell, bei denen 24+4‑ und 24+2‑EC‑Konfigurationen mit einer 12+4‑Konfiguration auf AFA und ObjectScale 4.3 verglichen wurden, Dez. 2025. Die tatsächlichen Ergebnisse können abweichen.
¹⁰Basierend auf internen Tests von Dell mit dem 4.3‑Code auf dem XF960, bei denen drei Erasure‑Coding‑Verfahren verglichen wurden, Dezember 2025. Die tatsächlichen Ergebnisse können abweichen.
¹¹Basierend auf internen Tests von Dell, bei denen die Funktion unter ObjectScale 4.3 auf einer Festplatte aktiviert bzw. deaktiviert wurde, Dezember 2025. Die tatsächlichen Ergebnisse können abweichen.