PowerScale | Informazioni sulle strategie per la cache e i metadati L3

Summary: PowerScale offre flessibilità nel modo in cui le unità a stato solido (SSD) all'interno di un pool di nodi vengono utilizzate per migliorare le prestazioni. Due strategie principali sono la cache L3 e l'accelerazione dei metadati. La memoria cache L3 è progettata per memorizzare nella cache dati e metadati a cui si accede di frequente per migliorare le prestazioni di lettura. L'accelerazione dei metadati dedica le unità SSD all'archiviazione e all'accelerazione delle operazioni sui metadati, che possono essere utili per i carichi di lavoro a uso intensivo di metadati. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Informazioni sulla cache L3:

Memoria cache L3: La memoria cache L3 è un livello secondario di memoria cache che risiede su SSD e integra la memoria cache primaria (L1 e L2). Funziona come una cache di rimozione, archiviando dati e metadati a cui si accede di frequente per migliorare la latenza di lettura. La cache L3 è particolarmente vantaggiosa per i flussi di lavoro che prevedono l'accesso casuale ai file. Può funzionare in modalità di soli metadati per gli storage node della serie di archiviazione. L'abilitazione della memoria cache L3 in un pool di nodi con dati esistenti nelle unità SSD richiede che le unità evadano tali dati nelle unità HDD prima che le SSD possano essere utilizzate per la memorizzazione nella cache. La disabilitazione della cache L3 è in genere un'operazione più veloce.

Flussi di lavoro che traggono vantaggio dalla cache L3: 

    • La memoria cache L3 è vantaggiosa per i flussi di lavoro con le seguenti caratteristiche:
    • Accesso casuale ai file: I carichi di lavoro che implicano letture frequenti di parti diverse e non sequenziali dei file possono riscontrare riduzioni significative della latenza con la memoria cache L3.
    • Elevato rapporto lettura/scrittura: Poiché la cache L3 accelera principalmente le letture, il flusso di lavoro con un componente di lettura dominante ne beneficia maggiormente.
    • Memorizzazione nella cache dei dati "attivi" a cui si accede di frequente: La cache L3 identifica e archivia automaticamente i dati a cui si accede di frequente, migliorando le prestazioni per gli accessi ripetuti.
    • Streaming e accesso simultaneo ai file (in una certa misura): Sebbene l'accesso casuale veda i maggiori vantaggi, anche i flussi di lavoro con streaming e accesso simultaneo possono riscontrare alcuni miglioramenti delle prestazioni con la cache L3.

Quando scegliere la cache L3:

    • Quando il collo di bottiglia primario delle prestazioni è casuale, latenza di lettura sia per i dati sia per i metadati.
    • Per estendere la capacità di memoria effettiva dei nodi senza incorrere nel costo di ulteriori RAM.
    • Per i carichi di lavoro che presentano una quantità significativa di rilettura di dati e metadati che sono stati rimossi di recente da L2.
    • Per i nodi di classe archivio, dove le prestazioni dei metadati per l'attraversamento del file system sono critiche.
    • Quando si desidera un miglioramento più semplice delle prestazioni di lettura "imposta e dimentica" senza un overhead di configurazione significativo.
      Quando scegliere l'accelerazione dei metadati:
    • Quando le operazioni sui metadati (ricerche, accesso, modifiche) sono il principale collo di bottiglia delle prestazioni.
    • Per carichi di lavoro con un volume elevato di letture di metadati (accelerazione di lettura dei metadati) o sia letture che scritture (accelerazione di lettura/scrittura dei metadati).
    • In scenari come l'interpretazione sismica, in cui l'accesso rapido ai metadati è fondamentale, anche se i dati sottostanti risiedono su uno storage più lento.
    • Quando è richiesto un controllo granulare sulla posizione in cui risiedono i metadati.
    • Quando si estendono i vantaggi di lettura dei metadati ai nodi senza SSD locali (utilizzando GNA con accelerazione di lettura dei metadati su altri nodi).
    • I carichi di lavoro come le home directory, i flussi di lavoro con un'elevata enumerazione di file e le attività che richiedono numerosi confronti spesso presentano un'elevata attività di lettura dei metadati. In questi casi, l'accelerazione diretta dell'accesso ai metadati può portare a un miglioramento significativo delle prestazioni

Informazioni sulle strategie dei metadati:

Strategia per i metadati: Invece di memorizzare i dati nella cache, le unità SSD possono essere configurate principalmente per archiviare e accelerare le operazioni sui metadati. Questa strategia può essere utile per i carichi di lavoro con un volume elevato di accesso ai metadati, ad esempio molti file di piccole dimensioni, ricerche frequenti di directory e attività del job engine a uso intensivo di metadati. OneFS supporta diverse strategie SSD di metadati, tra cui la lettura e la scrittura di metadati.

Lettura metadati: Le unità SSD vengono utilizzate principalmente per accelerare le operazioni di lettura dei metadati.

Scrittura di metadati: Le unità SSD vengono utilizzate per accelerare le operazioni di scrittura dei metadati. 

  • Vantaggi della strategia dei metadati rispetto alla cache L3:
  • L'accelerazione dei metadati offre un controllo più mirato e granulare sul modo in cui le unità SSD vengono utilizzate per migliorare le prestazioni dei metadati per set di dati e flussi di lavoro specifici. La cache L3, d'altra parte, è un livello di caching più generale che avvantaggia una gamma più ampia di carichi di lavoro, in particolare quelli con ripetuti accessi in lettura casuale a dati e metadati. Sebbene la cache L3 eccelle nel miglioramento delle prestazioni di lettura per i dati a cui si accede di frequente, una strategia di metadati dedicata può offrire vantaggi specifici: 
    • Miglioramento delle prestazioni dei metadati: Per i carichi di lavoro in cui le operazioni sui metadati rappresentano il collo di bottiglia (ad esempio, apertura, chiusura, ridenominazione, elenco di un numero elevato di file), dedicare le unità SSD ai metadati può ridurre significativamente la latenza e migliorare il throughput complessivo.
    • Miglioramento delle prestazioni di Job Engine: Alcune attività del job engine OneFS richiedono un utilizzo intensivo dei metadati. L'accelerazione dell'accesso ai metadati può portare a tempi di completamento più rapidi per questi processi.
    • Prestazioni prevedibili per carichi di lavoro con utilizzo intensivo di metadati: Negli ambienti con un modello coerente di elevata attività dei metadati, una strategia di metadati dedicata può fornire miglioramenti delle prestazioni più prevedibili e duraturi rispetto a una cache basata sulla rimozione.
    • Alcune applicazioni e alcuni flussi di lavoro generano un numero sproporzionatamente elevato di operazioni sui metadati rispetto alle letture e scritture di dati effettive. Alcuni esempi includono l'archiviazione dei file, la gestione degli asset multimediali, l'automazione della progettazione elettronica (EDA), gli ambienti di sviluppo software con compilazioni frequenti e le pipeline di genomica che comportano numerosi accessi e analisi di file di piccole dimensioni. In questi casi, la latenza associata all'accesso e alla manipolazione dei metadati può diventare un collo di bottiglia significativo per le prestazioni
    • Le operazioni che implicano l'esplorazione di strutture di directory complesse o l'elenco dei contenuti di molte directory dipendono fortemente dalle prestazioni dei metadati. L'accelerazione dei metadati garantisce che il sistema possa accedere rapidamente alle informazioni sugli inode e alle voci della directory, velocizzando significativamente queste operazioni rispetto all'utilizzo di una cache L3 che potrebbe aver rimosso queste informazioni a causa di vincoli di capacità o di accessi meno frequenti
    • Backup, replica e migrazione: Queste attività di gestione dei dati spesso comportano un'ampia scansione ed elaborazione dei metadati. Un accesso più rapido ai metadati tramite l'accelerazione può ridurre significativamente il tempo necessario per completare questi job, riducendo al minimo le interruzioni dei carichi di lavoro primari e migliorando l'efficienza operativa.
    • Ricerca e indicizzazione: Quando gli utenti o i processi automatizzati devono cercare file specifici in base ai loro attributi di metadati (ad esempio, nome, dimensione, data di modifica), l'accesso accelerato ai metadati consente un'esecuzione più rapida delle query. Ciò è rilevante per soluzioni come MetadataIQ, che indicizza i metadati del file system per query e discovery dei dati efficienti in più cluster
  • Quando scegliere Metadati
    • Navigazione intensiva di directory, operazioni di ricerca di file o dati, indicizzazione.
    • Operazioni sui file come apertura, chiusura, eliminazione e creazione di directory (mkdir).
    • Operazioni di ricerca, getattr e accesso.
    • Directory principali, in particolare quelle con molti oggetti.
    • Flussi di lavoro che comportano enumerazioni o confronti intensivi.
    • Interpretazione dei dati sismici, in cui la tempestività dei metadati è critica.
    • L'accelerazione dei metadati può produrre miglioramenti significativi delle prestazioni per questi tipi di attività, aumentando il throughput e riducendo la latenza

Riepilogo: Quando scegliere

    • Scegliere una strategia di accelerazione dei metadati (lettura o lettura/scrittura dei metadati) se il carico di lavoro è fortemente orientato verso operazioni che accedono o modificano i metadati dei file (esplorazione, ricerca, indicizzazione, creazione, eliminazione, modifica di attributi).
    • Scegliere Metadata Read Acceleration se il carico di lavoro è principalmente a lettura intensiva di metadati e si desidera utilizzare meno capacità SSD.
    • Scegliere l'accelerazione di lettura/scrittura dei metadati se il carico di lavoro comporta una quantità significativa di scritture di metadati, richiede eliminazioni di snapshot più rapide o è un carico di lavoro HPC di file di piccole dimensioni come EDA che trae vantaggio da file di piccole dimensioni incorporati su flash. Assicurarsi di disporre di capacità SSD sufficiente.
    • Prendere in considerazione GNA se si dispone di un cluster misto (nodi con e senza SSD) ed è necessario accelerare le letture dei metadati per i dati che risiedono su nodi non SSD nel cluster. Ciò è rilevante per i carichi di lavoro a uso intensivo di metadati distribuiti.
      • Accelerazione del namespace globale (GNA): GNA è un meccanismo meno recente (destinato a essere sostituito dalla memoria cache L3 quando tutti i nodi dispongono di SSD) che consente ai pool di nodi senza SSD di sfruttare le unità SSD in altre parti del cluster archiviando mirror di metadati aggiuntivi su tali SSD. Ciò accelera le operazioni di lettura dei metadati per i dati archiviati nei pool solo HDD. La cache L3 e GNA possono coesistere nello stesso cluster, ma in genere operano su pool di nodi diversi.
    • Prendere in considerazione la cache L3 se il carico di lavoro comporta letture casuali significative, trae vantaggio dalla memorizzazione nella cache estesa per un set di lavoro di grandi dimensioni o necessita di prestazioni migliorate di Job Engine, a condizione che i nodi dispongano di SSD.

Strumenti e comandi:

  • Monitoraggio delle prestazioni: Utilizza strumenti come InsightIQ, CloudIQ e MetadataIQ per monitorare lo stato del cluster, le metriche delle prestazioni e la previsione dell'utilizzo. InsightIQ è in grado di monitorare le tendenze delle prestazioni, identificare modelli ed eseguire analisi dei file. Può inoltre aiutare a stimare quando un cluster raggiunge la capacità massima. CloudIQ fornisce informazioni dettagliate sulle prestazioni del cluster. MetadataIQ facilita l'indicizzazione e l'esecuzione di query sui dati tra cluster e può essere utilizzato per la gestione del ciclo di vita dei dati e la comprensione della distribuzione dei dati.
  • L'utilità isi_cache_stats consente di determinare le dimensioni del dataset di lavoro, rilevanti per il dimensionamento delle unità SSD per la cache L2 e L3. Una regola generale suggerisce che la capacità L2 + capacità L3 dovrebbe essere >= 150% della dimensione del set di lavoro.
  • MetadataIQ (OneFS 9.10+): Implementare e configurare MetadataIQ per indicizzare e creare un catalogo globale di metadati tra i cluster. Utilizza la dashboard Kibana per visualizzare la distribuzione dei dati, il numero di file e gli attributi dei metadati. Ciò consente di comprendere la composizione dei dati e il modo in cui i metadati stanno crescendo. Le sincronizzazioni periodiche mantengono aggiornato il database dei metadati
  • InsightIQ fornisce report sulla capacità del cluster, inclusa la capacità totale, sottoposta a provisioning e utilizzata, consentendo di prevedere le esigenze di storage in base alle tendenze storiche. È in grado di monitorare le prestazioni dei carichi di lavoro, la latenza, gli IOPS e il throughput, consentendo di rilevare potenziali colli di bottiglia man mano che i dati crescono. I report di File System Analytics di InsightIQ possono mostrare il numero di file e la distribuzione delle dimensioni, fornendo informazioni dettagliate sulla scala e sulla composizione dei dati, che si riferiscono direttamente alla crescita del conteggio LIN.

Affected Products

Isilon, PowerScale, PowerScale OneFS
Article Properties
Article Number: 000321641
Article Type: How To
Last Modified: 16 May 2025
Version:  1
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.