

ObjectScale
Pequenos Objetos, Grande Impacto: Como a ObjectScale Melhora a Eficiência no Armazenamento de Dados
O desempenho do armazenamento de objetos para pequenos ficheiros é importante. E o armazenamento em blocos é a chave. Este é um detalhe de nível baixo e bastante técnico, mas é importante compreender o conceito e os seus benefícios à medida que os fluxos de dados de IA críticos migram para o armazenamento de objetos em all-flash.
De quantos pequenos ficheiros estamos a falar nos pipelines de dados de hoje? À escala, existem milhares de milhões de ficheiros. Estes ficheiros podem ser metadados gerados como dados não estruturados, uma vez que os dados não estruturados são processados em dados semiestruturados para afinação de modelo de Grandes modelos de linguagem (LLM). Ou os ficheiros podem ter origem numa arquitetura de Lakehouse de dados com bases de dados de tabela aberta em grande escala.
O Dell ObjectScale é um armazenamento de objetos concebido especificamente para empresas que estão a lidar com as exigências dos dados modernos na era da IA. O ObjectScale diferencia-se da concorrência para o desempenho, capacidade de recuperação e durabilidade de pequenos ficheiros, aumentando drasticamente a eficiência do armazenamento de dados. Eis algumas razões para isso.
Tirar partido dos segmentos
O ObjectScale embala ficheiros em blocos de 128 MB. Esses segmentos dão ao sistema grandes vantagens ao lidar com um grande número de pequenos objetos.
Por exemplo, considere um sistema com centenas de milhões ou mil milhões de pequenos ficheiros de 10 mil metadados. O ObjectScale pode armazenar mais de 10.000 desses arquivos em um único bloco. Esse segmento é então codificado para eliminação e os fragmentos resultantes são distribuídos entre racks e nós para tolerância a falhas. O segmento é colocado previsivelmente no disco com uma sobrecarga de armazenamento vazio de 25% (com codificação de eliminação de 10+2).
Compare este cenário com um sistema que não utilize o armazenamento em blocos. Para esses pequenos objetos, a codificação de eliminação individual é uma má opção (pode resultar em mais de 600% de sobrecarga). Estes sistemas geralmente recorrem ao espelhamento duplo ou triplo (200% ou 300% de sobrecarga). Tente multiplicar isso por centenas de milhões ou mil milhões.
Reconstrução mais rápida, com menos sobrecarga de armazenamento
Em seguida, considere como a segmentação pode determinar os resultados em um cenário de falha.
Num sistema de objetos não baseado em armazenamento de segmentos, a falha da unidade NVMe de 61 TB significaria que o sistema tem que recriar milhares de milhões de fragmentos de objetos. Estamos a falar de semanas a meses de tempo de reconstrução para uma única falha de unidade. E se todo um nó de armazenamento de 24 unidades ficasse inativo? As reconstruções seriam um problema constante no sistema.
O armazenamento de segmentos ObjectScale reduz imensamente (de milhares de milhões para milhões) o total de fragmentos que precisam de ser recriados num cenário de falha. Os tempos de reconstrução em unidades NVMe grandes podem diminuir de semanas e meses para apenas horas, mantendo os custos de armazenamento baixos. É realmente a única solução gerível para suporte a NVMe de grande dimensão.
Maximizar a durabilidade, libertando ciclos de CPU
Considere também o impacto da durabilidade dos dados ao gerir o armazenamento de objetos para cargas de trabalho modernas, como IA. Para evitar a corrupção silenciosa dos dados, o armazenamento de objetos realiza uma análise proativa dos objetos, verificando as somas de verificação e corrigindo erros.
Se cada objeto individual num sistema precisar de ser alvo de verificação da soma, um sistema ativo pode facilmente entrar num estado no qual nunca será possível concluir essas análises. Alguns sistemas de objeto vão limitar as velocidades de ingestão se entrarem numa situação em que não é possível concluir as análises de verificação d soma.
Em contraste, o ObjectScale, efetua a verificação de soma de objetos inline antes de os colocar num segmento. Não é necessário verificar em segundo plano, dado que a verificação de somas é realizada ao nível do segmento/faixa.
Ao reduzir o número de somas de verificação que precisam ser validadas continuamente, o ObjectScale reduz massivamente a sobrecarga de processamento associada. Isso liberta ciclos de CPU para que os nós de armazenamento possam fazer o trabalho principal, ler e gravar dados.
Aumente a eficiência de armazenamento de IA com ObjectScale
O mecanismo de armazenamento em bloco poderoso da Dell ObjectScale aborda diretamente os desafios de gerenciar bilhões de pequenos objetos. Na verdade, alguns de nossos clientes estão executando ambientes ObjectScale que incluem mais de 100 milhares de milhões de objetos em uma única caçamba. Convidamos a que descubra e saiba mais sobre como a ObjectScale oferece eficiência de armazenamento, durabilidade e resiliência superiores, tornando-a uma base indispensável para fluxos de trabalho de análise e IA de alto desempenho.
