Piccoli oggetti, grande impatto: come ObjectScale migliora l'efficienza nello storage dei dati

Piccoli oggetti, grande impatto: come ObjectScale migliora l’efficienza nello storage dei dati

Potenzia lo storage dei dati AI con Dell ObjectScale: efficienza, durata e affidabilità ineguagliabili su misura per miliardi di file di piccole dimensioni.

Le prestazioni dello storage a oggetti per file di piccole dimensioni sono importanti. E l’archiviazione a blocchi è essenziale. Si tratta di dettagli di basso livello e piuttosto tecnici, ma è importante comprendere il concetto e i relativi vantaggi, poiché le pipeline di dati AI critiche passano allo storage a oggetti All-Flash.

Quanti file di piccole dimensioni sono presenti nelle pipeline di dati di oggi? Su vasta scala, parliamo di miliardi di file. Potrebbero essere metadati generati man mano che i dati non strutturati vengono elaborati in dati semistrutturati per l’ottimizzazione dei modelli linguistici di grandi dimensioni (LLM). Oppure possono provenire da un’architettura Data Lakehouse con enormi database in formato tabella aperta.

Dell ObjectScale è la soluzione di storage a oggetti progettata appositamente per le aziende che si trovano ad affrontare le esigenze dei dati moderni nell’era dell’AI. ObjectScale si distingue dalla concorrenza per le prestazioni, la facilità di ripristino e la durata su file di piccole dimensioni, con un sensibile miglioramento dell’efficienza dello storage dei dati. Ecco alcuni motivi.

Possibilità di sfruttare i blocchi

ObjectScale raggruppa i file in blocchi da 128 MB. Questi blocchi offrono al sistema grandi vantaggi quando si tratta di gestire un enorme numero di oggetti di piccole dimensioni.

Ad esempio, consideriamo un sistema con centinaia di milioni o miliardi di file di metadati da 10K molto piccoli. ObjectScale può archiviare oltre 10.000 di questi file in un singolo blocco, a cui che viene poi applicata la codifica di erasure e le partizioni risultanti vengono distribuite tra rack e nodi per la tolleranza di errore. Il blocco viene posizionato in modo prevedibile su disco con overhead di storage del 25% (con codifica di erasure 10+2).

Confronta questo scenario con un sistema che non utilizza l’archiviazione a blocchi. Per oggetti di piccole dimensioni, la codifica di erasure individuale è un’opzione inadeguata (potrebbe causare un overhead superiore al 600%). In genere, questi sistemi ricorrono al doppio o triplo mirroring (200% o 300% di overhead). Prova a moltiplicare per centinaia di milioni o miliardi di file.

Ricostruzione più rapida, con overhead di storage inferiore

Successivamente, considera in che modo la suddivisione in blocchi può determinare i risultati in uno scenario di errore.

In un sistema a oggetti non basato sull’archiviazione a blocchi, il guasto di un’unità NVMe da 61 TB comporterebbe la necessità di ricreare miliardi di partizioni di oggetti. Parliamo di tempistiche di ricostruzione che vanno da settimane a mesi per il guasto di una singola unità. Cosa succederebbe se un intero storage node con 24 unità smettesse di funzionare? Le ricostruzioni rappresenterebbero un peso costante per il sistema.

L’archiviazione a blocchi di ObjectScale riduce le partizioni totali da ricreare in uno scenario di errore di vari ordini di grandezza (da miliardi a milioni). I tempi di ricostruzione su unità NVMe di grandi dimensioni possono diminuire da settimane o mesi a poche ore, con un overhead di storage contenuto. Si tratta dell’unica soluzione gestibile per il supporto di unità NVMe di grandi dimensioni.

Massimizzare la durata, liberando i cicli della CPU

Considera inoltre l’impatto della durata dei dati durante la gestione dello storage a oggetti per carichi di lavoro moderni come l’AI. Per evitare il danneggiamento invisibile dei dati, lo storage a oggetti esegue la scansione proattiva degli oggetti, verificando i checksum e correggendo gli errori.

Se per ogni singolo oggetto in un sistema deve essere calcolato un checksum, un sistema attivo potrebbe facilmente entrare in uno stato in cui tali scansioni non vengono mai completate. Alcuni sistemi a oggetti limiteranno la velocità di acquisizione se si trovano in una situazione in cui non è possibile completare le scansioni di checksum.

ObjectScale, al contrario, esegue il checksum dei singoli oggetti in linea prima di inserirli in un blocco. Non è necessario effettuare verifiche in background, poiché i checksum vengono verificati a livello di segmento/stripe.

Con la limitazione del numero di checksum da convalidare continuamente, ObjectScale riduce notevolmente l’overhead di elaborazione associato. Così si liberano i cicli della CPU in modo che gli storage node possano eseguire il loro compito principale, leggere e scrivere dati.

Aumenta l’efficienza dello storage AI con ObjectScale

Il potente meccanismo di archiviazione a blocchi di Dell ObjectScale affronta direttamente le sfide legate alla gestione di miliardi di oggetti di piccole dimensioni. Infatti, alcuni dei nostri clienti eseguono ambienti ObjectScale che includono oltre 100 miliardi di oggetti in un singolo bucket. Ti invitiamo a contattarci e scoprire di più su come ObjectScale offra livelli superiori di efficienza, durata e resilienza dello storage, caratteristica che lo rende una base indispensabile per flussi di lavoro di analisi e AI a elevate prestazioni.

About the Author: Gregory Shiff