Petits objets, gros impact : comment ObjectScale renforce l’efficacité du stockage de données

Optimisez votre stockage de données d’IA avec Dell ObjectScale, pour une efficacité, une durabilité et une fiabilité inégalées, adaptées à des milliards de fichiers peu volumineux.

Les performances de stockage en mode objet pour les fichiers de petite taille sont importantes. Et le stockage par blocs est essentiel. Tout cela peut sembler assez technique, mais il est important de comprendre le concept et ses avantages à l’heure où les pipelines de données d’IA stratégiques migrent vers des solutions de stockage en mode objet All-Flash. 

De combien de petits fichiers parlons-nous dans les pipelines de données actuels ? À grande échelle, les fichiers se comptent par milliards. Il peut s’agir de métadonnées générées lorsque les données non structurées sont traitées pour être converties en données semi-structurées pour l’affinement des grands modèles de langage (LLM). Mais les fichiers peuvent aussi provenir d’une architecture de Data Lakehouse contenant d’immenses bases de données alimentées par des tables ouvertes. 

Dell ObjectScale est une solution de stockage en mode objet spécialement conçue pour les entreprises aux prises avec les exigences des données modernes à l’ère de l’IA. ObjectScale se démarque de la concurrence en termes de performances, de capacité de récupération et de durabilité des fichiers de petite taille, améliorant considérablement l’efficacité du stockage de données. Voici quelques raisons qui expliquent cette différenciation. 

Exploitation des blocs 

ObjectScale compresse les fichiers en blocs de 128 Mo. Ces blocs offrent au système des avantages majeurs lorsqu’il s’agit de traiter un grand nombre d’objets peu volumineux. 

Prenons par exemple un système contenant des centaines de millions voire de milliards  de très petits fichiers de métadonnées de 10 Ko. ObjectScale peut stocker plus de 10 000 de ces fichiers dans un seul bloc. Ce bloc est ensuite protégé par un code d’effacement  et les fragments qui en résultent sont répartis entre les racks et les nœuds pour garantir  la tolérance aux pannes. Le bloc est placé de manière prévisible sur le disque avec des frais de stockage de 25 % (avec un codage d’effacement de 10+2). 

Comparons à présent ce scénario avec un système qui n’utilise pas de stockage par blocs. Pour ces objets peu volumineux, un codage d’effacement individuel serait une mauvaise option (qui pourrait entraîner des frais de plus de 600 %). Généralement, ces systèmes  se basent sur une double ou triple mise en miroir (frais de 200 % ou 300 %). Multipliez cela par des centaines de millions ou de milliards. 

Reconstruction plus rapide, avec des frais de stockage réduits 

Réfléchissez maintenant à la façon dont la fragmentation peut influencer les résultats dans un scénario de panne. 

Sur un système de stockage en mode objet qui n’utilise pas de stockage par blocs, la défaillance d’un disque NVMe de 61 To contraindrait le système à recréer des milliards de fragments d’objets. Cela représente plusieurs semaines, voire plusieurs mois, de reconstruction pour la défaillance d’un seul disque. Que se passe-t-il si un nœud de stockage complet avec 24 disques tombe en panne ? Les reconstructions puiseraient constamment sur les ressources du système. 

Le stockage par blocs ObjectScale réduit le nombre total de fragments à recréer dans un scénario de panne de plusieurs ordres de grandeur (de plusieurs milliards à quelques millions). La durée de reconstruction sur des disques NVMe volumineux peut passer de plusieurs semaines, voire plusieurs mois, à seulement quelques heures, tout en limitant les frais de stockage. Il s’agit vraiment de la seule solution facile à gérer pour la prise en charge de NVMe à grande échelle. 

Plus de durabilité pour libérer les cycles processeur 

Tenez également compte de l’impact de la durabilité des données lors de la gestion du stockage en mode objet pour les charges applicatives modernes telles que l’IA. Pour éviter la corruption silencieuse des données, le stockage en mode objet analyse proactivement les objets, vérifie les sommes de contrôle et répare les erreurs. 

S’il fallait vérifier les sommes de contrôle de chaque objet qui compose un système, un système actif pourrait facilement en arriver au point où il serait impossible de mener à terme ces analyses. Certains systèmes d’objets limitent les vitesses d’ingestion s’ils se trouvent dans une situation qui ne permet pas d’exécuter les analyses des sommes de contrôle. 

ObjectScale, à l’inverse, analyse les sommes de contrôle sur chaque objet, à la volée, avant de les placer dans un bloc. Il n’est pas nécessaire de vérifier ces analyses en arrière-plan, car les sommes de contrôle sont vérifiées au niveau des segments/bandes. 

En réduisant le nombre de sommes de contrôle qui doivent être validées en permanence, ObjectScale réduit considérablement la surcharge de traitement associée. Cela libère des cycles de processeur pour que les nœuds de stockage puissent effectuer leur travail principal, à savoir lire et écrire des données. 

Faire évoluer l’efficacité du stockage pour l’IA avec ObjectScale 

Le puissant mécanisme de stockage de blocs de Dell ObjectScale répond directement aux défis liés à la gestion de milliards de petits objets. En fait, certains de nos clients exécutent des environnements ObjectScale qui comprennent plus de 100 milliards d’objets dans un seul bucket. Nous vous invitons à nous contacter pour en savoir plus sur la manière dont l’efficacité, la durabilité et la résilience supérieures offertes par ObjectScale font de cette solution une base indispensable pour les workflows d’IA et d’analytique hautes performances. 

À propos de l’auteur: Gregory Shiff