Objetos pequeños, gran repercusión: cómo ObjectScale mejora la eficiencia en el almacenamiento de datos

Impulsa el almacenamiento de datos con IA con Dell ObjectScale: eficiencia, durabilidad y fiabilidad inigualables adaptadas a miles de millones de archivos pequeños.

El rendimiento del almacenamiento de objetos para archivos pequeños es importante. Y el almacenamiento por fragmentos es la clave. Se trata de un detalle algo técnico, pero es importante comprender el concepto y sus ventajas, ya que los pipelines de datos críticos de IA migran al almacenamiento de objetos totalmente flash.

¿De cuántos archivos pequeños estamos hablando en los pipelines de datos actuales? A gran escala, hay miles de millones de archivos. Estos archivos pueden ser metadatos generados al procesar datos no estructurados en datos semiestructurados para ajustes de modelos de lenguaje colosales (LLM). O los archivos pueden proceder de una arquitectura de Data Lakehouse con bases de datos de tablas abiertas masivas.

Dell ObjectScale es un almacenamiento de objetos diseñado específicamente para empresas que se enfrentan a las exigencias de los datos modernos en la era de la IA. ObjectScale se distingue de la competencia por su rendimiento con archivos pequeños, su capacidad de recuperación y su durabilidad, lo que mejora drásticamente la eficiencia del almacenamiento de datos. A continuación, se exponen algunas razones.

Aprovechamiento de los fragmentos

ObjectScale agrupa los archivos en fragmentos de 128 MB. Esos fragmentos aportan al sistema grandes ventajas a la hora de gestionar un gran número de objetos pequeños.

Por ejemplo, un sistema con cientos de millones o miles de millones de archivos de metadatos muy pequeños de 10 K. ObjectScale puede almacenar más de 10.000 de esos archivos en un solo fragmento. Después, ese fragmento se codifica mediante borrado y los fragmentos resultantes se distribuyen entre racks y nodos para garantizar la tolerancia a fallos. El fragmento se coloca de forma predecible en el disco con una sobrecarga de almacenamiento limpia del 25 % (con codificación de borrado 10+2).

Esta situación contrasta con un sistema que no utiliza almacenamiento por fragmentos. Para objetos tan pequeños, la codificación de borrado individual es una mala opción (podría suponer una sobrecarga superior al 600 %). Estos sistemas suelen recurrir al reflejo doble o triple (200 % o 300 % de sobrecarga). Intenta multiplicarlo por cientos de millones o miles de millones.

Reconstrucción más rápida, con menor sobrecarga de almacenamiento

A continuación, piensa en cómo la fragmentación puede determinar los resultados en un escenario de fallo.

En un sistema de objetos no basado en almacenamiento por fragmentos, el fallo de una unidad NVMe de 61 TB significaría que el sistema tendría que recrear miles de millones de fragmentos de objetos. Estamos hablando de semanas o meses de tiempo de reconstrucción para el fallo de una sola unidad. ¿Qué pasaría si fallara todo un nodo de almacenamiento con 24 unidades? Las reconstrucciones serían una carga constante para el sistema.

El almacenamiento por fragmentos de ObjectScale reduce el total de fragmentos que deben recrearse en un escenario de fallo en varios órdenes de magnitud (de miles de millones a millones). Los tiempos de reconstrucción en unidades NVMe grandes pueden reducirse de semanas y meses a tan solo unas horas, todo ello manteniendo una sobrecarga de almacenamiento baja. Es la única solución viable para el soporte de NVMe grande.

Maximizar la durabilidad y liberar ciclos de CPU

También hay que tener en cuenta el impacto de la durabilidad de los datos a la hora de gestionar el almacenamiento de objetos para cargas de trabajo modernas, como la IA. Para evitar la corrupción silenciosa de los datos, el almacenamiento de objetos realiza un análisis proactivo de los objetos, verificando las sumas de comprobación y reparando los errores.

Si es necesario comprobar cada objeto individual de un sistema, un sistema activo podría llegar fácilmente a un estado en el que esos análisis nunca pudieran completarse. Algunos sistemas de objetos limitarán las velocidades de recopilación si entran en una situación en la que no se pueden completar los análisis de sumas de comprobación.

Por el contrario, ObjectScale comprueba las sumas de objetos individuales en línea antes de ponerlos en un fragmento. No es necesario verificarlo en segundo plano, ya que las sumas de comprobación se verifican a nivel de segmento/banda.

Al reducir el número de sumas de comprobación que deben validarse continuamente, ObjectScale reduce enormemente la sobrecarga de procesamiento asociada. Esto libera ciclos de CPU para que los nodos de almacenamiento puedan realizar su tarea principal, leer y escribir datos.

Aumenta la eficiencia del almacenamiento de IA con ObjectScale

El potente mecanismo de almacenamiento por fragmentos de Dell ObjectScale aborda directamente los retos que plantea la gestión de miles de millones de objetos pequeños. De hecho, algunos de nuestros clientes están ejecutando entornos ObjectScale que incluyen más de 100 millones de objetos en un solo depósito. Te invitamos a ponerte en contacto con nosotros y obtener más información sobre cómo ObjectScale ofrece una eficiencia, durabilidad y resiliencia de almacenamiento superiores, lo que lo convierte en una base indispensable para flujos de trabajo de IA y análisis de alto rendimiento.

About the Author: Gregory Shiff