ObjectScale.Next : une année de performances pour les données d’IA

Découvrez comment le stockage en mode objet le plus performant du secteur1 transforme les progrès de performance en résultats d’IA concrets, version après version.

En matière de stockage, l’IA ne cesse de placer la barre toujours plus haut. Les processeurs graphiques ne peuvent rester inactifs en attente d’E/S. Les fonctionnalités de streaming, les intégrations et les artefacts intermédiaires ne peuvent pas être limités par de petits goulots d’étranglement d’objets. L’inférence des LLM ne peut pas évoluer si le cache KV est piégé dans la mémoire du processeur graphique au lieu d’alimenter les accélérateurs au débit de ligne.

Depuis la sortie de la version 4.0 il y a seulement un an, ObjectScale a multiplié les progrès en matière de performances pour les objets de petite et grande taille, la fonctionnalité RDMA, les chemins de données compatibles avec les processeurs graphiques et le déchargement du cache KV, en les combinant avec la dernière technologie de serveur Dell PowerEdge All‑Flash tout en préservant l’architecture Exascale, l’efficacité et la simplicité sur lesquelles les entreprises s’appuient.

Ces belles performances sont l’une des principales raisons pour lesquelles ObjectScale a été nommé produit de l’année 2025 pour le stockage de classe entreprise par CRN, un prix décerné par l’équipe éditoriale de CRN qui souligne l’impact d’ObjectScale sur les principaux défis actuels en matière de données d’entreprise.

Une plateforme unique pour des gains de performances accrus

Dans les déploiements ObjectScale software‑defined sur des serveurs Dell PowerEdge éligibles, les tests internes ont démontré un débit de lecture par nœud pouvant atteindre 40 Go/s1, soit un débit jusqu’à 8 fois plus rapide1 que les plateformes en mode objet All‑Flash de génération précédente. Les équipes IA disposent ainsi d’un moteur compact à bande passante élevée pour les ensembles d’entraînement volumineux, les points de contrôle et les charges applicatives de taille mixte.

Ces gains offrent des avantages dans le monde réel : ObjectScale fait aujourd’hui ses preuves dans certains environnements parmi les plus exigeants :

  • Trading haute fréquence et à grande échelle : une grande société de trading haute fréquence (HFT) basée à New York traite plus de 30 milliards de transactions par jour, en s’appuyant sur ObjectScale pour que les moteurs de trading, de gestion des risques et d’analyse continuent d’être alimentés en données.
  • Services financiers mondiaux : une société financière internationale utilise un environnement ObjectScale multisite basé sur des disques durs pour traiter 1,5 milliard de transactions quotidiennes tout en prenant en charge plus de 1 000 charges applicatives d’IA, d’analytique et de sauvegarde via un libre‑service automatisé.
  • Trading haute fréquence au Royaume‑Uni : une société de trading haute fréquence basée au Royaume‑Uni a maintenu un débit de lecture cumulé d’environ 280 Go/s sur un petit cluster de validation fonctionnelle ObjectScale.

Petits objets, hautes performances : optimisations du chunk store et des magasins clé‑valeur

Les pipelines d’IA modernes sont dominés par de petits objets : journaux, métriques, fonctionnalités, segments de table, chunks vectoriels et artefacts d’entraînement intermédiaires. Si le niveau d’objet ne peut pas gérer efficacement les petits objets, tout ce qui est en aval ralentit. ObjectScale permet aux clients de créer en toute confiance des pipelines d’IA gourmands en petits objets.

Pour ce faire, ObjectScale utilise un moteur de chunk store qui regroupe de nombreux petits objets en blocs de 128 Mo avant d’appliquer un codage d’effacement et de distribuer les données entre les nœuds. Pour les fichiers types de 10 Ko, plus de 10 000 objets peuvent cohabiter dans un seul chunk, ce qui réduit la surcharge de métadonnées et le travail de reconstruction.

Avantages pour les clients :

  • Débit des petits objets accru et latence réduite, notamment sur l’ensemble des clusters ObjectScale XF960 All‑Flash et X560 basés sur des disques durs optimisés pour la lecture de petits objets.
  • Reconstructions plus rapides et performances plus prévisibles : le codage d’effacement basé sur des chunks réduit de plusieurs milliards à quelques millions le nombre de fragments à recréer en cas de défaillance de disque ou de nœud, ce qui permet de reconstruire les disques NVMe volumineux non plus en plusieurs semaines, mais en quelques heures.
  • Réduction du gaspillage de processeur pour l’analyse en arrière‑plan : ObjectScale effectue des sommes de contrôle des objets en ligne, puis effectue des vérifications au niveau des bandes, libérant ainsi des cycles de processeur pour les lectures et écritures actives.

Dans ObjectScale 4.2, un nouveau magasin clé‑valeur va encore plus loin en offrant une efficacité de mémoire environ 4 fois supérieure2 et une utilisation du disque réduite de 30 à 60 %2 pour les métadonnées. Les recherches restent rapides et prévisibles, même lorsque le nombre de clusters et d’objets augmente.

Alimentation des processeurs graphiques et des LLM : S3 sur RDMA et cache KV

À mesure que les équipes d’IA déploient l’entraînement et l’inférence à plus grande échelle, le goulot d’étranglement concerne de plus en plus le mouvement des données et la mémoire en contexte, et non le calcul brut. La 4e génération d’ObjectScale réduit le goulot d’étranglement dans ces deux domaines.

S3 sur RDMA : bande passante élevée, accès aux objets à faible latence

S3 sur RDMA (introduit dans ObjectScale 4.2 et amélioré dans la version 4.3) remplace le protocole TCP traditionnel par une fonctionnalité RDMA pour l’accès S3, offrant ainsi des avantages considérables aux clients en matière de tests internes :

  • Jusqu’à 230 % de débit en plus
  • Latence environ 80 % plus faible
  • Jusqu’à 98 % de réduction de l’utilisation du processeur…

… par rapport à S3 sur TCP.3

Avec la version 4.3, S3 sur RDMA pour ObjectScale est disponible sur toute la gamme All‑Flash (ObjectScale software‑defined sur R7725xd, XF960 et EXF900), offrant ainsi un accès à très faible latence et à haut débit aux données d’objet.

En intégrant le SDK S3 sur RDMA avec prise en charge des processeurs graphiques et une pile réseau RoCEv2, ObjectScale contourne les goulots d’étranglement traditionnels liés au TCP et aux processeurs graphiques en créant un chemin quasi direct entre les processeurs graphiques et les disques SSD NVMe dans le stockage en mode objet pour les pipelines d’IA exigeants.

Cache KV : transformer ObjectScale en accélérateur d’inférence

À mesure que les LLM passent en production, le cache clé‑valeur (KV) devient essentiel. Au lieu de recalculer les états d’attention pour chaque jeton, les frameworks d’inférence réutilisent le cache KV, mais celui‑ci dépasse rapidement la capacité de la mémoire du processeur graphique. Le déchargement du cache KV vers ObjectScale permet de fournir des expériences d’IA plus rapides et réactives.

La solution évolutive de déchargement du cache KV de Dell, optimisée par ObjectScale et PowerScale, déplace le cache KV de la mémoire du processeur graphique vers un stockage partagé hautes performances à l’aide de vLLM, de LMCache, de la bibliothèque NIXL de NVIDIA et de l’intégration S3 à accélération RDMA de Dell.

Les tests le prouvent :

  • Temps jusqu’au premier jeton (TTFT) jusqu’à 19 fois plus court4 par rapport à une configuration vLLM standard recalculant le cache KV sur le processeur graphique.
  • Débit de jetons jusqu’à 5,3 fois plus élevé5 et débit multitours 3 fois plus élevé5 dans les tests Dell InfoHub, même avec des caches KV de plusieurs gigaoctets stockés sur ObjectScale et PowerScale.
  • TTFT du cache KV d’environ 0,86 seconde6 sur ObjectScale lors des comparaisons directes avec un moteur concurrent, surpassant VAST dans les tests publiés.

Tables S3 : analyse optimisée par l’IA sans la contrainte de l’ETL

Dans ObjectScale 4.3 (Tech Preview), les tables S3 importent l’analyse native de tables et basée sur Apache Iceberg directement dans les buckets ObjectScale. Les tables sont hébergées sur S3 et peuvent être interrogées par des moteurs comme Spark, Flink, Trino et Starburst sans copier les données dans des bases de données ou entrepôts distincts, réduisant ainsi les frais généraux de l’ETL et les dépendances externes.

Les tests internes le prouvent :

  • Ingestion jusqu’à 2 fois plus rapide7
  • Requêtes jusqu’à 4,5 fois plus rapides7

par rapport aux modèles traditionnels centrés sur les entrepôts, tandis que la récupération automatisée du stockage et l’IAM unifiée contribuent à maintenir des performances élevées et à simplifier les opérations au fil du temps. ObjectScale passe d’une simple zone de déploiement à une surface d’analytique active et performante pour les équipes d’IA et de BI.

Des performances sans compromettre l’évolutivité, l’efficacité et la simplicité

Les performances ne sont utiles que si elles sont associées à l’évolutivité, à l’efficacité et à la simplicité. La 4e génération d’ObjectScale améliore également ces dimensions :

  • Un magasin clé‑valeur modernisé prend en charge jusqu’à 122 %8 de croissance mondiale des VDC par rapport aux versions antérieures, tout en utilisant beaucoup moins de mémoire et de disque pour les métadonnées.
  • La compression au niveau du compartiment et les divers algorithmes (Snappy, LZ4, ZSTD, Deflate) permettent aux équipes d’ajuster la vitesse ou le ratio en fonction de la charge applicative, tandis que l’analytique de compression transforme les économies en signal FinOps au lieu d’un paramètre aveugle.
  • Les nouvelles options de codage d’effacement 24+2 et 24+4 d’ObjectScale réduisent l’amplification d’écriture jusqu’à 75 %9, réduisant ainsi l’usure des supports et la surcharge en arrière‑plan afin que les applications bénéficient d’un E/S accru ; les clients bénéficient d’une ingestion de grands objets jusqu’à 25 % plus rapide10, mais aussi de performances en écriture d’objet de taille intermédiaire jusqu’à 2 fois plus élevées11 sur les plateformes de disques durs haute capacité comme EX500.
  • Un équilibreur de charge intégré, une meilleure récupération de l’espace de réplication géographique et des outils natifs du Cloud (Kubernetes COSI, Terraform) permettent de gérer les environnements ObjectScale à grande échelle à mesure qu’ils évoluent.

Le résultat : une plateforme où l’amélioration des performances et la simplicité opérationnelle vont de pair, sans que les équipes n’aient à choisir entre les deux.

L’importance d’une feuille de route ObjectScale axée sur les performances

À mesure que les modèles d’IA et les pipelines de données gagnent en complexité, la feuille de route d’ObjectScale reste axée sur les performances, qu’il s’agisse d’améliorer le débit d’objets de petite ou grande taille, d’étendre S3 sur RDMA et les chemins de données compatibles avec les processeurs graphiques, ou encore d’approfondir l’intégration avec le cache KV, la mémoire contextuelle ou la recherche optimisée par l’IA.

Pour les entreprises qui construisent leur nouvelle génération d’IA et d’analytique, cela représente une simple promesse : votre magasin d’objets ne vous freinera pas.


Sources

1D’après une analyse réalisée par Dell comparant ObjectScale 4.2 sur PowerEdge R7725xd à ECS 3.8 sur ECS EXF900 pour les performances en lecture d’objets, septembre 2025. Les résultats réels peuvent varier.
2D’après une analyse réalisée par Dell comparant le magasin clé‑valeur d’ObjectScale 4.2 à celui utilisé dans ObjectScale 4.1, août 2025. Les résultats réels peuvent varier.
3D’après des tests internes réalisés par Dell sur ObjectScale S3 sur RDMA, décembre 2025. Les résultats réels peuvent varier.
4D’après des tests internes réalisés par Dell Technologies à l’aide du modèle LLaMA‑3.3‑70B Instruct avec parallélisme du tenseur = 4. Les tests ont mesuré les performances du TTFT (temps jusqu’au premier jeton) avec une correspondance dans le cache KV de 100 %, en comparant le vLLM de Dell + LMCache + pile NVIDIA NIXL sur le stockage PowerScale et ObjectScale à une configuration vLLM standard de base. Les résultats réels peuvent varier. Novembre 2025.
5D’après des tests internes réalisés par Dell Technologies à l’aide du modèle LLaMA‑3.3‑70B Instruct avec parallélisme du tenseur = 4. Les tests ont mesuré le TPS (jetons par seconde) à l’aide de la suite d’inférence multitours LMbenchmark, en comparant le vLLM de Dell + LMCache + pile NVIDIA NIXL sur le stockage PowerScale et ObjectScale à une configuration de base utilisant un vLLM standard avec mise en cache de la mémoire du processeur graphique uniquement. Les résultats réels peuvent varier. Novembre 2025.
6D’après des tests internes réalisés par Dell Technologies à l’aide du modèle LLaMA‑3.3‑70B Instruct avec parallélisme du tenseur = 4. Les tests ont mesuré le TTFT (délai jusqu’au premier jeton) avec une correspondance dans le cache KV de 100 %. Les résultats réels peuvent varier. Novembre 2025.
7D’après des tests internes réalisés par Dell sur des tables ObjectScale S3, septembre 2025. Les résultats réels peuvent varier.
8D’après une analyse réalisée par Dell comparant le magasin clé‑valeur d’ObjectScale 4.2 à celui utilisé dans ObjectScale 4.1, août 2025. Les résultats réels peuvent varier.
9D’après des tests internes réalisés par Dell sur les schémas EC 24+4 et 24+2 par rapport au schéma 12+4 sur du code AFA et ObjectScale 4.3, décembre 2025. Les résultats réels peuvent varier.
10D’après des tests internes réalisés par Dell sur du code 4.3 sur le XF960 et comparant les 3 schémas de codage d’effacement, décembre 2025. Les résultats réels peuvent varier.
11D’après des tests internes réalisés par Dell comparant la fonctionnalité activée sur ObjectScale 4.3 sur disque dur à la fonctionnalité désactivée, décembre 2025. Les résultats réels peuvent varier.

Anahad Dhillon headshot

About the Author: Anahad Dhillon

Anahad Dhillon owns the strategy, planning and roadmap for Dell’s object storage product portfolio. He focuses on bringing customers the most value for their storage investments—through industry leading storage solutions for Enterprise and BigAI use cases.