Risoluzione dei problemi relativi a un rapporto di deduplica e compressione insufficiente dei file su Data Domain Restorer (DDR)
Summary: Risoluzione dei problemi relativi a un rapporto di deduplica e compressione insufficiente dei file su Data Domain Restorer (DDR)
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
I DDR (Data Domain Restorer) sono progettati per contenere grandi quantità di dati logici (precompressi) utilizzando uno spazio su disco fisico minimo (postcompresso). Questa operazione viene eseguita utilizzando:
- Deduplica dei dati acquisiti per rimuovere blocchi duplicati di dati già archiviati su disco nel DDR, lasciando solo i dati univoci
- Compressione dei dati univoci prima che i dati siano scritti fisicamente su disco.
- Use case
- Tipi di dati acquisiti
- Configurazione dell'applicazione di backup
- DDR per esaurire rapidamente la capacità utilizzabile
- Impatto sulle prestazioni di backup, restore o replica
- Incapacità del DDR di soddisfare le aspettative dei clienti
Cause
Questo articolo ha lo scopo di illustrare:
- Una breve panoramica della deduplica e della compressione dei dati su un DDR
- Come determinare il rapporto di compressione complessivo per il sistema e i singoli file
- Fattori che possono causare un peggioramento del rapporto di compressione complessivo
Resolution
In che modo un data domain restorer acquisisce nuovi dati?
Oltre alla deduplica/compressione dei dati appena ricevuti, il DDR crea anche una "struttura ad albero dei segmenti" per ogni file ingerito. Si tratta essenzialmente di un elenco di "impronte digitali" del segmento che costituiscono tale file. Se il DDR deve leggere nuovamente il file in un secondo momento, è possibile:
In che modo è possibile determinare il rapporto di compressione generale su un DDR?
L'utilizzo complessivo di un DDR (e del rapporto di compressione) può essere visualizzato utilizzando il comando "filesys show space". Ad esempio:
Active Tier:
Resource Size GiB Used GiB Avail GiB Use% Cleanable GiB*
---------------- -------- -------- --------- ---- --------------
/data: pre-comp - 115367.8 - - -
/data: post-comp 6794 .2 6242.4 551,8 92% 202.5
/ddvar 49.2 9.1 37,6 20% -
---------------- -------- -------- --------- ---- --------------In questo caso, vediamo che:
Fattore
del fattore di compressione (GiB) dopo la compressione globale della compressione globale
(GiB) (GiB) (riduzione %)
---------------- -------- --------- ----------- ---------- -------------
utilizzato attualmente:* 115367.8 6242.4 - - 18,5x (94.6) <
Ultimi 7 giorni 42214.7 1863.2 11.0x 2.1x 22.7x (95.6)
Le ultime 24 ore 4924,8 274,0 8,8x 2,0x 18,0x (94,4)
---------------- -------- --------- ----------- ---------- -------------
Immagine di utilizzo totale sulla DDR sono calcolate come segue:
Container set 73fcacadea763b48:b66f6a65133e6c73:
...
attrs.psize = 4718592 <= dimensione contenitore in byte
...
attrs.max_containers = 1546057 <un numero massimo di contenitori
possibili attrs.free_containers = 125562 <; Attualmente i contenitori
liberi attrs.used_containers = 1420495 <" Contenitori attualmente in uso
...
Vedere:
In che modo è possibile determinare i rapporti di deduplica e compressione per un singolo file, directory o struttura ad albero di directory?
Quando un file viene inserito, il DDR registra le statistiche relative al file, tra cui:
SE@DDVE60_JF## filesys show compression /data/col1/backup/testfile
Total files: 1; byte/storage_used: 2.9
Byte originali: 3.242.460.364
compressi a livello globale: 1.113.584.070
compressione locale: 1.130.871.915
metadati: 4.772.672
Per segnalare le statistiche per un intero albero di directory:
SE@DDVE60_JF## filesys show compression /data/col1/backup
Total files: 3; byte/storage_used: 1.4
Byte originali: 7.554.284.280
compressi a livello globale: 5.425.407.986
compressione locale: 5.510.685.100
metadati: 23.263.692
Si noti, tuttavia, che vi sono un paio di avvertenze sull'utilizzo di queste statistiche:
I byte precompressi non sono necessariamente la dimensione precompressa/logica del file. Si tratta invece del numero totale di byte scritti in un file nella sua durata. Di conseguenza, in alcuni ambienti i file esistenti vengono comunemente sovrascritti (ad esempio quelli che utilizzano la funzionalità di libreria a nastro virtuale), la figura può essere maggiore della dimensione logica dei file corrispondenti.
L'acquisizione di dati di "scarsa qualità" può causare un peggioramento del rapporto di compressione complessivo?
Sì, affinché un DDR raggiunga un buon rapporto di compressione complessivo dei dati acquisiti, deve essere in grado di deduplicare e comprimere tali dati. Esistono vari tipi di dati che possono impedire questo problema, come illustrato di seguito:
Dati precompressi/pre-crittografati:
questi sono tipi di dati compressi o crittografati nel sistema client o dall'applicazione di backup. Ciò può includere anche file specifici dell'applicazione compressi o crittografati per progettazione (ad esempio file multimediali) e file di database compressi o crittografati o che incorporano oggetti binari come i file multimediali.
A causa del modo in cui l'algoritmo di compressione o crittografia funziona, una modifica relativamente piccola dei dati sottostanti di un file determina modifiche a "ripple out" in tutto il file. Ad esempio, un client può contenere un file crittografato da 100 Mb all'interno del quale vengono modificati i 10 KB. Normalmente, il file risultante sarà identico prima e dopo la modifica oltre alla sezione 10 Kb che è stata modificata. Quando si utilizza la crittografia, anche se solo 10 KB di dati non crittografati sono stati modificati prima e dopo la modifica, l'algoritmo di crittografia fa sì che l'intero contenuto del file cambi.
Quando tali dati vengono regolarmente modificati e inviati a un DDR, questo effetto a catena fa sì che ogni generazione del file abbia un aspetto diverso rispetto alle generazioni precedenti dello stesso file. Di conseguenza, ogni generazione contiene un set univoco di segmenti (e impronte digitali dei segmenti), quindi mostra un rapporto di deduplica debole.
Si noti inoltre che, anziché i file precompressi, è improbabile che l'algoritmo lz sia in grado di comprimere ulteriormente i dati del segmento costitutivo in modo che i dati non possano essere compressi prima di essere scritti su disco.
Come linea guida generale, la precompressione/pre-crittografia causa quanto segue:
Laddove possibile, i dati inviati a un DDR non devono essere crittografati o compressi. Ciò potrebbe richiedere la disabilitazione della crittografia o della compressione sul client finale o all'interno dell'applicazione di backup corrispondente.
Per assistenza nel controllo, nella modifica delle impostazioni di crittografia o compressione all'interno di un determinato backup, applicazione client o sistema operativo, contattare il provider di supporto appropriato.
File multimediali:
Per impostazione predefinita, alcuni tipi di file contengono dati precompressi o pre-crittografati. Ad esempio:
File con un'elevata "univocità":
Il raggiungimento di un buon rapporto di deduplica dipende dal fatto che il DDR veda più volte lo stesso set di segmenti (e impronte digitali dei segmenti). Alcuni tipi di dati, tuttavia, contengono solo dati transazionali univoci che, per progettazione, contengono dati "univoci".
Se questi file vengono inviati a un DDR, ogni generazione di backup contiene un set univoco di segmenti o impronte digitali dei segmenti e, di conseguenza, rileva un rapporto di deduplica danneggiato.
Esempi di questi file sono:
File di piccole dimensioni:
I file di piccole dimensioni causano vari problemi quando vengono scritti in un DDR. tra cui:
Multiplexing eccessivo da parte delle applicazioni di backup:
Le applicazioni di backup possono essere configurate per eseguire il multiplexing dei dati tra i flussi inviati al backup device, ovvero i dati dai flussi di input (client diversi) vengono inviati in un singolo flusso al backup device. Questa funzionalità è principalmente utilizzata per la scrittura su dispositivi a nastro fisici come:
Inoltre, le prestazioni di restore potrebbero essere scarse in quanto per ripristinare alcuni dati dei client, il DDR deve leggere molti file o contenitori in cui la maggior parte dei dati nei file o nei contenitori è dispendiosa in quanto si riferisce ai backup di altri client.
Le applicazioni di backup non devono utilizzare il multiplexing durante la scrittura in un DDR in quanto i DDR supportano un numero di flussi in ingresso superiore rispetto ai dispositivi a nastro fisici e ogni flusso è in grado di scrivere a velocità variabile. Di conseguenza, il multiplexing da parte delle applicazioni di backup deve essere disabilitato. Se le prestazioni di backup vengono influenzate dopo la disabilitazione del multiplexing, procedere come segue:
Applicazioni di backup che inseriscono un numero eccessivo di indicatori a nastro:
Alcune applicazioni di backup possono inserire strutture di dati ripetute in un flusso di backup noto come "marker". Gli indicatori non rappresentano i dati fisici all'interno del backup, ma vengono invece utilizzati come sistema di indicizzazione o posizionamento dall'applicazione di backup.
In alcune circostanze, l'inclusione di indicatori in un flusso di backup può ridurre il rapporto di deduplica, ad esempio:
Per evitare questo problema, la DDR utilizza la tecnologia di riconoscimento degli indicatori che consente:
Per sfruttare al meglio questa tecnologia, tuttavia, è importante che il DDR sia in grado di riconoscere correttamente gli indicatori inseriti nei flussi di backup. La DDR cerca gli indicatori a seconda dell'impostazione dell'opzione 'marker type', ad esempio:
SE@DDVE60_JF## filesys option show
Option Value
-------------------------------- --------
...
Tipo di indicatore automatico
...
-------------------------------- --------Se questo valore deve essere lasciato impostato su "auto" in quanto consente al DDR di abbinare automaticamente i tipi di indicatori più comuni. Se il sistema acquisisce dati da una sola applicazione di backup che inserisce gli indicatori, potrebbe esserci un vantaggio in termini di prestazioni derivante dalla specifica di un tipo di indicatore specifico, ovvero:
# filesys option set marker-type {auto | nw1 | cv1 | tsm1 | tsm2 | eti1 | fdr1 | hpdp1 | besr1 | ssrt1 | ism1 | bti1| none}
Vedere:
Per i sistemi che acquisiscono dati da applicazioni che utilizzano gli indicatori di backup ma che non vengono riconosciuti dalla tecnologia di gestione degli indicatori automatizzata (ad esempio prodotti del software BridgeHead), contattare il provider di supporto che può quindi collaborare con il supporto di Data Domain per determinare le impostazioni richieste sulla DDR al fine di rilevare l'indicatore non standard.
Indicazioni di dati di "scarsa qualità" ricevuti da un DDR:
Nella tabella seguente sono elencati i rapporti di deduplica e compressione previsti per i diversi tipi di dati elencati in precedenza. Questo elenco non è esaustivo e ovviamente possono esserci alcune variazioni nelle cifre esatte visualizzate in un determinato sistema a causa del carico di lavoro o dei dati acquisiti dalla DDR:
Esistono alcuni fattori su un DDR che possono influire sul rapporto di deduplica generale?
Sì. Esistono diversi fattori che possono causare il mantenimento di dati obsoleti/superflessi su disco in un DDR, determinando un aumento dello spazio su disco (fisico) post-compresso e una riduzione del rapporto di compressione complessivo. Tali fattori sono discussi di seguito.
Errore durante l'esecuzione regolare di pulizia del file system:
La pulizia del file system è l'unico modo per rimuovere fisicamente i dati obsoleti/superflessi sul disco a cui non fanno più riferimento i file del DDR. Di conseguenza, un utente potrebbe eliminare diversi file dal sistema (causando un calo nell'utilizzo precompresso) ma non eseguire la pulizia (lasciando elevato l'utilizzo postcompresso/fisico). Ciò causerebbe un calo del rapporto di compressione complessivo.
Data Domain consiglia di pianificare l'esecuzione pulita a intervalli regolari come segue:
Numero eccessivo di snapshot obsolete nel sistema:
I DDR possono creare snapshot mtree che rappresentano il contenuto di un mtree nel momento in cui è stata creata la snapshot. Si noti, tuttavia, che lasciare snapshot obsolete in un sistema può causare un aumento dell'utilizzo post-compresso/fisico causando un calo del rapporto di compressione complessivo. Ad esempio:
Ulteriori informazioni sull'utilizzo di snapshot e pianificazioni di snapshot sono disponibili nel seguente articolo: Data Domain - Gestione delle pianificazioni delle
snapshotRitardo di replica eccessivo:
La replica nativa di Data Domain utilizza un log di replica o snapshot mtree (a seconda del tipo di replica) per tenere traccia dei file o dei dati in sospeso per la replica su un DDR remoto. Il ritardo di replica è il concetto di replica che è in ritardo rispetto alle modifiche apportate alla DDR di origine. Ciò può verificarsi a causa di vari fattori, tra cui:
Se i DDR subiscono un utilizzo elevato e si ritiene che ciò sia dovuto al ritardo nella replica, contattare il provider di supporto con contratto per ulteriore assistenza.
Sono presenti modifiche alla configurazione o determinati fattori su un DDR in grado di aumentare il rapporto di compressione complessivo?
Sì: la rimozione o la risoluzione dei problemi discussi in precedenza in questo documento dovrebbe consentire a un DDR di mostrare un miglioramento del rapporto di compressione complessivo nel tempo. Esistono anche vari fattori o carichi di lavoro su un DDR che possono portare a un aumento del rapporto di deduplica. In genere si tratta di:
Per impostazione predefinita, i DDR comprimeno i dati scritti su disco con l'algoritmo lz . Come accennato in precedenza, lz viene utilizzato in quanto presenta overhead relativamente bassi in termini di CPU necessari per la compressione o la decompressione, ma mostra una ragionevole efficacia nella riduzione delle dimensioni dei dati.
È possibile aumentare l'aggressività dell'algoritmo di compressione per fornire ulteriori risparmi nell'utilizzo post-compresso o del disco rigido (e di conseguenza migliorare il rapporto di compressione complessivo). Gli algoritmi di compressione supportati, in ordine di efficacia (da basso ad alto), sono i seguenti:
Come indicato nella tabella precedente, più aggressivo è l'algoritmo di compressione, maggiore è la CPU richiesta durante la compressione o la decompressione dei dati. Per questo motivo, le modifiche a un algoritmo più aggressivo devono essere effettuate solo sui sistemi che sono leggermente caricati sotto il normale carico di lavoro. La modifica dell'algoritmo su sistemi altamente caricati può causare un deterioramento estremo delle prestazioni di backup o ripristino e possibili errori o riavvii del file system (causando un'interruzione dell'alimentazione DDR).
Per ulteriori informazioni sulla modifica del tipo di compressione, consultare il seguente articolo: Impatto sulle prestazioni del sistema Data Domain e della pulizia della conversione alla compressione
GZA causa del potenziale impatto della modifica dell'algoritmo di compressione, si consiglia ai clienti interessati a farlo contattare il fornitore del supporto per approfondire la modifica prima di procedere.
Utilizzo di fastcopy del file system:
I DDR consentono l'utilizzo del comando "file system fastcopy" per copiare rapidamente un file (o una struttura ad albero di directory). Questa funzionalità crea un file clonando i metadati di un file esistente (o gruppo di file) in modo che, sebbene i nuovi file non siano fisicamente connessi al file originale, fanno riferimento esattamente agli stessi dati sul disco del file originale. Ciò significa che, indipendentemente dalle dimensioni del file originale, il nuovo file consuma poco spazio sul disco (in quanto deduplica perfettamente rispetto ai dati esistenti).
Il risultato di questo comportamento è che quando si utilizza fastcopy del file system, la dimensione precompressa (logica) dei dati sul DDR aumenta rapidamente, ma l'utilizzo post-compresso/fisico del DDR rimane statico.
Ad esempio, il seguente DDR utilizza il DDR come indicato di seguito (che indica il rapporto di compressione complessivo di circa 1,8x):
Active Tier:
Resource Size GiB Used GiB Avail GiB Use% Cleanable GiB*
---------------- -------- -------- --------- ---- --------------
/data: pre-comp - 12.0 - - -
/data: post-comp 71.5 6.8 64.7 10% 0.0
/ddvar 49.2 1.1 45.6 2% -
/ddvar/core 158.5 0.2 150.2 0% -
---------------- -------- -------- --------- ---- --------------
Contiene un file di grandi dimensioni (/data/col1/backup/testfile):
!!! DDVE60_JF I DATI SONO A RISCHIO !!! # ls -al /data/col1/backup/testfile-rw-r
--r-- 1 root root 3221225472 lug 29 04:20 /data/col1/backup/testfile
Il file viene fastcopy più volte:
sysadmin@DDVE60_JF# filesys fastcopy source /data/col1/backup/testfile destination /data/col1/backup/testfile_copy1
sysadmin@DDVE60_JF# filesys fastcopy source /data /col1/backup/testfile destination /data/col1/backup/testfile_copy2
sysadmin@DDVE60_JF# filesys fastcopy source /data/col1/backup/testfile destination /data/col1/backup/testfile_copy3
Ciò causa un aumento dell'utilizzo precompresso per modifiche minime nell'utilizzo post-compresso:
Active Tier:
Resource Size GiB Used GiB Used GiB Use% Cleanable GiB*
---------------- -------- -------- --------- ---- --------------
/data: pre-comp - 21.0 - - - -
/data: post-comp 71.5 6.8 64.7 10% 0.0
/ddvar 49.2 1.1 45.6 2% -
/ddvar/core 158.5 0.2 150.2 0% -
---------------- -------- -------- --------- ---- --------------
Di conseguenza il DDR ora mostra un rapporto di compressione complessivo di circa 3,1 volte.
Come accennato in precedenza, le statistiche di compressione delle copie mostrano che deduplicano perfettamente:
sysadmin@DDVE60_JF# filesys mostrano i file totali di compressione /data/col1/backup/testfile_copy1
: 1; byte/storage_used: 21331976.1
Byte originali: 3.242.460.364
compressi a livello globale: 0
Compresso in locale: 0 Metadati
: 152
La funzionalità Fastcopy non può essere utilizzata per migliorare il rapporto di compressione complessivo riducendo l'utilizzo fisico del DDR, tuttavia può essere la causa di un elevato rapporto di compressione complessivo (soprattutto in ambienti che utilizzano ampiamente fastcopy come Avamar 6.x).
- L'applicazione di backup invia i dati (ovvero i file) al DDR.
- Il DDR suddivide questi file in blocchi di dimensioni da 4 a 12 KB: ogni blocco è visto come un "segmento".
- Il DDR genera un 'impronta digitale' univoca (simile a un checksum) per ogni segmento a seconda dei dati contenuti all'interno del segmento.
- Le impronte digitali dei segmenti appena arrivati vengono verificate sugli indici dei dischi sul DDR per determinare se il DDR contiene già un segmento con lo stesso impronta digitale.
- Se la DDR contiene già un segmento con la stessa impronta digitale, il segmento corrispondente nei dati appena ricevuti è un duplicato e può essere eliminato (deduplicato).
- Una volta rimossi tutti i segmenti duplicati dai dati appena ricevuti, rimangono solo i segmenti univoci o nuovi.
- Questi segmenti univoci o nuovi vengono raggruppati in "aree di compressione" da 128 Kb, quindi compressi (utilizzando l'algoritmo lz per impostazione predefinita).
- Le aree di compressione compresse sono imballate in unità di storage da 4,5 Mb, conosciute come "contenitori", che vengono quindi scritte sul disco rigido.
Oltre alla deduplica/compressione dei dati appena ricevuti, il DDR crea anche una "struttura ad albero dei segmenti" per ogni file ingerito. Si tratta essenzialmente di un elenco di "impronte digitali" del segmento che costituiscono tale file. Se il DDR deve leggere nuovamente il file in un secondo momento, è possibile:
- Determinare la posizione della struttura ad albero del segmento di file.
- Leggere la struttura ad albero dei segmenti per ottenere un elenco di tutte le impronte digitali dei segmenti che costituiscono l'area del file da leggere.
- Utilizzare gli indici dei dischi per determinare la posizione fisica (che è il contenitore) dei dati su disco.
- Leggere i dati del segmento fisico dai contenitori sottostanti su disco.
- Utilizzare i dati del segmento fisico per ricostruire il file.
In che modo è possibile determinare il rapporto di compressione generale su un DDR?
L'utilizzo complessivo di un DDR (e del rapporto di compressione) può essere visualizzato utilizzando il comando "filesys show space". Ad esempio:
Active Tier:
Resource Size GiB Used GiB Avail GiB Use% Cleanable GiB*
---------------- -------- -------- --------- ---- --------------
/data: pre-comp - 115367.8 - - -
/data: post-comp 6794 .2 6242.4 551,8 92% 202.5
/ddvar 49.2 9.1 37,6 20% -
---------------- -------- -------- --------- ---- --------------In questo caso, vediamo che:
- Dati logici o precompressi conservati su DDR: 115367,8 Gb
- Spazio post-compresso o fisico utilizzato su DDR: 6242,4 Gb
- Il rapporto di compressione complessivo è 115367,8/6242,4 = 18,48 volte
Fattore
del fattore di compressione (GiB) dopo la compressione globale della compressione globale
(GiB) (GiB) (riduzione %)
---------------- -------- --------- ----------- ---------- -------------
utilizzato attualmente:* 115367.8 6242.4 - - 18,5x (94.6) <
Ultimi 7 giorni 42214.7 1863.2 11.0x 2.1x 22.7x (95.6)
Le ultime 24 ore 4924,8 274,0 8,8x 2,0x 18,0x (94,4)
---------------- -------- --------- ----------- ---------- -------------
Immagine di utilizzo totale sulla DDR sono calcolate come segue:
- Dati precompressi totali: La somma della dimensione precompressa (logica) di tutti i file conservati dal DDR.
- Dati totali post-compressi: Il numero di "contenitori" in uso su disco moltiplicato per 4,5 Mb (le dimensioni di un singolo contenitore).
- Dimensione totale postcompressa: Il numero massimo di "contenitori" creati, dato lo spazio disponibile su disco nel sistema.
Container set 73fcacadea763b48:b66f6a65133e6c73:
...
attrs.psize = 4718592 <= dimensione contenitore in byte
...
attrs.max_containers = 1546057 <un numero massimo di contenitori
possibili attrs.free_containers = 125562 <; Attualmente i contenitori
liberi attrs.used_containers = 1420495 <" Contenitori attualmente in uso
...
Vedere:
Dimensioni post-com = 1546057 * 4718592 / 1024 / 1024 / 1024 = 6794,2 Gb
Postcomp utilizzato = 1420495 * 4718592 / 1024 / 1024 / 1024 = 6242,4 Gb
Postcomp utilizzato = 1420495 * 4718592 / 1024 / 1024 / 1024 = 6242,4 Gb
In che modo è possibile determinare i rapporti di deduplica e compressione per un singolo file, directory o struttura ad albero di directory?
Quando un file viene inserito, il DDR registra le statistiche relative al file, tra cui:
- Byte precompressi (logici)
- Dimensione dei segmenti univoci dopo la deduplica
- Dimensione dei segmenti univoci dopo la deduplica e la compressione
- Dimensione dei metadati del file (ovvero la struttura ad albero del segmento e così via)
SE@DDVE60_JF## filesys show compression /data/col1/backup/testfile
Total files: 1; byte/storage_used: 2.9
Byte originali: 3.242.460.364
compressi a livello globale: 1.113.584.070
compressione locale: 1.130.871.915
metadati: 4.772.672
Per segnalare le statistiche per un intero albero di directory:
SE@DDVE60_JF## filesys show compression /data/col1/backup
Total files: 3; byte/storage_used: 1.4
Byte originali: 7.554.284.280
compressi a livello globale: 5.425.407.986
compressione locale: 5.510.685.100
metadati: 23.263.692
Si noti, tuttavia, che vi sono un paio di avvertenze sull'utilizzo di queste statistiche:
- Le statistiche vengono generate al momento dell'acquisizione di file o dati e, successivamente, non vengono aggiornate. A causa del modo in cui funziona un DDR, l'acquisizione di nuovi file o l'eliminazione di file che fanno riferimento agli stessi dati e così via possono modificare il modo in cui un file deduplica nel tempo causando l'impossibilità di visualizzare queste statistiche.
- Inoltre, alcuni use case sul DDR (ad esempio fastcopy di un file e quindi eliminazione del file originale) possono far sì che queste statistiche diventino fuorvianti o errate.
I byte precompressi non sono necessariamente la dimensione precompressa/logica del file. Si tratta invece del numero totale di byte scritti in un file nella sua durata. Di conseguenza, in alcuni ambienti i file esistenti vengono comunemente sovrascritti (ad esempio quelli che utilizzano la funzionalità di libreria a nastro virtuale), la figura può essere maggiore della dimensione logica dei file corrispondenti.
L'acquisizione di dati di "scarsa qualità" può causare un peggioramento del rapporto di compressione complessivo?
Sì, affinché un DDR raggiunga un buon rapporto di compressione complessivo dei dati acquisiti, deve essere in grado di deduplicare e comprimere tali dati. Esistono vari tipi di dati che possono impedire questo problema, come illustrato di seguito:
Dati precompressi/pre-crittografati:
questi sono tipi di dati compressi o crittografati nel sistema client o dall'applicazione di backup. Ciò può includere anche file specifici dell'applicazione compressi o crittografati per progettazione (ad esempio file multimediali) e file di database compressi o crittografati o che incorporano oggetti binari come i file multimediali.
A causa del modo in cui l'algoritmo di compressione o crittografia funziona, una modifica relativamente piccola dei dati sottostanti di un file determina modifiche a "ripple out" in tutto il file. Ad esempio, un client può contenere un file crittografato da 100 Mb all'interno del quale vengono modificati i 10 KB. Normalmente, il file risultante sarà identico prima e dopo la modifica oltre alla sezione 10 Kb che è stata modificata. Quando si utilizza la crittografia, anche se solo 10 KB di dati non crittografati sono stati modificati prima e dopo la modifica, l'algoritmo di crittografia fa sì che l'intero contenuto del file cambi.
Quando tali dati vengono regolarmente modificati e inviati a un DDR, questo effetto a catena fa sì che ogni generazione del file abbia un aspetto diverso rispetto alle generazioni precedenti dello stesso file. Di conseguenza, ogni generazione contiene un set univoco di segmenti (e impronte digitali dei segmenti), quindi mostra un rapporto di deduplica debole.
Si noti inoltre che, anziché i file precompressi, è improbabile che l'algoritmo lz sia in grado di comprimere ulteriormente i dati del segmento costitutivo in modo che i dati non possano essere compressi prima di essere scritti su disco.
Come linea guida generale, la precompressione/pre-crittografia causa quanto segue:
- Dati pre-crittografati: Tasso di deduplica scadente, ma rapporto di compressione accettabile
- Dati precompressi: Rapporto di deduplica e rapporto di compressione scadenti
Laddove possibile, i dati inviati a un DDR non devono essere crittografati o compressi. Ciò potrebbe richiedere la disabilitazione della crittografia o della compressione sul client finale o all'interno dell'applicazione di backup corrispondente.
Per assistenza nel controllo, nella modifica delle impostazioni di crittografia o compressione all'interno di un determinato backup, applicazione client o sistema operativo, contattare il provider di supporto appropriato.
File multimediali:
Per impostazione predefinita, alcuni tipi di file contengono dati precompressi o pre-crittografati. Ad esempio:
- File PDF
- Alcuni file audio (mp3, wma, ogg e così via)
- File video (avi, mkv e così via)
- File di immagine (png, bmp, jpeg e così via)
- File specifici dell'applicazione (Microsoft Office, Open Office, Libre Office e così via)
File con un'elevata "univocità":
Il raggiungimento di un buon rapporto di deduplica dipende dal fatto che il DDR veda più volte lo stesso set di segmenti (e impronte digitali dei segmenti). Alcuni tipi di dati, tuttavia, contengono solo dati transazionali univoci che, per progettazione, contengono dati "univoci".
Se questi file vengono inviati a un DDR, ogni generazione di backup contiene un set univoco di segmenti o impronte digitali dei segmenti e, di conseguenza, rileva un rapporto di deduplica danneggiato.
Esempi di questi file sono:
- Log delle transazioni del database (ad esempio, registri di archiviazione Oracle).
- Log delle transazioni di Microsoft Exchange
File di piccole dimensioni:
I file di piccole dimensioni causano vari problemi quando vengono scritti in un DDR. tra cui:
- bloat di metadati: il DDR inizia a contenere una quantità di metadati di file superiore al previsto rispetto ai dati fisici.
- Utilizzo insufficiente dei container: per progettazione (a causa del layout del segmento Stream Informed di Data Domain o dell'architettura SISL - oltre l'ambito di questo documento) un contenitore da 4,5 Mb su disco contiene solo i dati da un singolo file. Di conseguenza, il backup di un singolo file da 10 KB, ad esempio, causa la scrittura di almeno un contenitore completo da 4,5 Mb per quel file. Ciò può significare che, per tali file, il DDR utilizza molto più spazio post-compresso (fisico) rispetto alla quantità corrispondente di dati precompressi (logici) sottoposti a backup, il che a sua volta causa un rapporto di compressione complessivo negativo.
- Basso rapporto di deduplica: i file di dimensioni inferiori a 4 Kb (la dimensione minima del segmento supportata su un DDR) sono costituiti da un singolo segmento, che viene imbottito a 4 Kb. Tali segmenti non sono deduplicati, ma vengono scritti direttamente su disco. Ciò può causare la presenza di più copie DDR dello stesso segmento (visualizzate come segmenti duplicati).
- Scarse prestazioni di backup, restore o pulizia: si verificano overhead di grandi dimensioni durante il backup, il restore o la pulizia quando si passa da un file all'altro (poiché è necessario commutare il contesto dei metadati in uso).
- L'impatto sulle prestazioni di pulizia quando si utilizzano file di piccole dimensioni è stato in una certa misura mitigato dall'introduzione di pulizia fisica o garbage collection in DDOS 5.5 e versioni successive.
- La pulizia tenta di "annullare" un utilizzo errato dei contenitori aggregando i dati provenienti dai contenitori con un utilizzo ridotto in contenitori più strettamente imballati durante la fase di copia.
- La pulizia tenta di rimuovere segmenti duplicati eccessivi durante la fase di copia.
Multiplexing eccessivo da parte delle applicazioni di backup:
Le applicazioni di backup possono essere configurate per eseguire il multiplexing dei dati tra i flussi inviati al backup device, ovvero i dati dai flussi di input (client diversi) vengono inviati in un singolo flusso al backup device. Questa funzionalità è principalmente utilizzata per la scrittura su dispositivi a nastro fisici come:
- Un dispositivo a nastro fisico può supportare solo un singolo flusso di scrittura in ingresso.
- L'applicazione di backup deve mantenere un throughput sufficiente per il dispositivo a nastro per impedire l'avvio, l'arresto o il riavvolgimento del nastro (noto anche come ciabatta- - Questo è più semplice se il flusso diretto al dispositivo a nastro contiene dati letti da più di un client.
Inoltre, le prestazioni di restore potrebbero essere scarse in quanto per ripristinare alcuni dati dei client, il DDR deve leggere molti file o contenitori in cui la maggior parte dei dati nei file o nei contenitori è dispendiosa in quanto si riferisce ai backup di altri client.
Le applicazioni di backup non devono utilizzare il multiplexing durante la scrittura in un DDR in quanto i DDR supportano un numero di flussi in ingresso superiore rispetto ai dispositivi a nastro fisici e ogni flusso è in grado di scrivere a velocità variabile. Di conseguenza, il multiplexing da parte delle applicazioni di backup deve essere disabilitato. Se le prestazioni di backup vengono influenzate dopo la disabilitazione del multiplexing, procedere come segue:
- Le applicazioni di backup che utilizzano CIFS, NFS o OST (DDBoost) devono aumentare il numero di flussi di scrittura (in modo che più file possano essere scritti in parallelo sul DDR).
- Gli ambienti che utilizzano VTL devono aggiungere ulteriori unità al DDR in quanto ogni unità consente il supporto di un ulteriore flusso di scrittura parallelo.
Applicazioni di backup che inseriscono un numero eccessivo di indicatori a nastro:
Alcune applicazioni di backup possono inserire strutture di dati ripetute in un flusso di backup noto come "marker". Gli indicatori non rappresentano i dati fisici all'interno del backup, ma vengono invece utilizzati come sistema di indicizzazione o posizionamento dall'applicazione di backup.
In alcune circostanze, l'inclusione di indicatori in un flusso di backup può ridurre il rapporto di deduplica, ad esempio:
- Nella prima generazione di un backup, c'erano 12 KB di dati contigui, riconosciuti dal DDR come un singolo segmento.
- Nella seconda generazione del backup, tuttavia, gli stessi 12 KB di dati sono suddivisi per l'inclusione di un indicatore di backup che può essere rappresentato da 6 Kb di dati, indicatore di backup, 6 Kb di dati.
- Di conseguenza, i segmenti creati durante la seconda generazione del backup non corrispondono a quelli generati durante la prima generazione del backup, pertanto non vengono deduplicati correttamente.
Per evitare questo problema, la DDR utilizza la tecnologia di riconoscimento degli indicatori che consente:
- Gli indicatori di backup devono essere rimossi in modo trasparente dal flusso di backup durante l'acquisizione del backup.
- Indicatori di backup da inserire nuovamente nel flusso di backup durante il ripristino del backup
Per sfruttare al meglio questa tecnologia, tuttavia, è importante che il DDR sia in grado di riconoscere correttamente gli indicatori inseriti nei flussi di backup. La DDR cerca gli indicatori a seconda dell'impostazione dell'opzione 'marker type', ad esempio:
SE@DDVE60_JF## filesys option show
Option Value
-------------------------------- --------
...
Tipo di indicatore automatico
...
-------------------------------- --------Se questo valore deve essere lasciato impostato su "auto" in quanto consente al DDR di abbinare automaticamente i tipi di indicatori più comuni. Se il sistema acquisisce dati da una sola applicazione di backup che inserisce gli indicatori, potrebbe esserci un vantaggio in termini di prestazioni derivante dalla specifica di un tipo di indicatore specifico, ovvero:
# filesys option set marker-type {auto | nw1 | cv1 | tsm1 | tsm2 | eti1 | fdr1 | hpdp1 | besr1 | ssrt1 | ism1 | bti1| none}
Vedere:
- È probabile che qualsiasi vantaggio derivante dalla selezione di un tipo di indicatore specifico sia minimo.
- La selezione di un tipo di indicatore errato può causare un ulteriore peggioramento significativo delle prestazioni di backup o ripristino e del rapporto di deduplica.
Per i sistemi che acquisiscono dati da applicazioni che utilizzano gli indicatori di backup ma che non vengono riconosciuti dalla tecnologia di gestione degli indicatori automatizzata (ad esempio prodotti del software BridgeHead), contattare il provider di supporto che può quindi collaborare con il supporto di Data Domain per determinare le impostazioni richieste sulla DDR al fine di rilevare l'indicatore non standard.
Indicazioni di dati di "scarsa qualità" ricevuti da un DDR:
Nella tabella seguente sono elencati i rapporti di deduplica e compressione previsti per i diversi tipi di dati elencati in precedenza. Questo elenco non è esaustivo e ovviamente possono esserci alcune variazioni nelle cifre esatte visualizzate in un determinato sistema a causa del carico di lavoro o dei dati acquisiti dalla DDR:
| Compressione globale | Compressione locale | Causa probabile |
| Basso (1x - 4x) | Basso (1x - 1,5x) | Dati precompressi o crittografati |
| Basso (1x - 2x) | Alto (>2x) | Dati univoci ma comprimibili, ad esempio i log di archiviazione del database |
| Basso (2x - 5x) | Alto (>1,5 volte) | Indicatori che non vengono rilevati o che non presentano un elevato tasso di modifica dei dati o che eseguono lo streaming di multiplexing. |
| Alto (>10x) | Basso (<1,5x) | Backup degli stessi dati compressi o crittografati. Non si tratta di un'operazione frequente. |
Esistono alcuni fattori su un DDR che possono influire sul rapporto di deduplica generale?
Sì. Esistono diversi fattori che possono causare il mantenimento di dati obsoleti/superflessi su disco in un DDR, determinando un aumento dello spazio su disco (fisico) post-compresso e una riduzione del rapporto di compressione complessivo. Tali fattori sono discussi di seguito.
Errore durante l'esecuzione regolare di pulizia del file system:
La pulizia del file system è l'unico modo per rimuovere fisicamente i dati obsoleti/superflessi sul disco a cui non fanno più riferimento i file del DDR. Di conseguenza, un utente potrebbe eliminare diversi file dal sistema (causando un calo nell'utilizzo precompresso) ma non eseguire la pulizia (lasciando elevato l'utilizzo postcompresso/fisico). Ciò causerebbe un calo del rapporto di compressione complessivo.
Data Domain consiglia di pianificare l'esecuzione pulita a intervalli regolari come segue:
- DDR normale: Una volta a settimana
- DDR con retention estesa: Una volta ogni due settimane
Numero eccessivo di snapshot obsolete nel sistema:
I DDR possono creare snapshot mtree che rappresentano il contenuto di un mtree nel momento in cui è stata creata la snapshot. Si noti, tuttavia, che lasciare snapshot obsolete in un sistema può causare un aumento dell'utilizzo post-compresso/fisico causando un calo del rapporto di compressione complessivo. Ad esempio:
- Esiste un mtree contenente molti file (pertanto l'utilizzo precompresso è elevato).
- Viene creata una snapshot dell'mtree.
- Molti file vengono eliminati (causando un calo dell'utilizzo precompresso).
- La pulizia del file system viene eseguita. Si noti, tuttavia, che lo spazio minimo sul disco rigido viene liberato in quanto una copia dei file eliminati rimane nella snapshot mtree, il che significa che i dati a cui fanno riferimento tali file non possono essere rimossi dal disco.
- Di conseguenza, l'utilizzo post-compresso/fisico rimane elevato
Ulteriori informazioni sull'utilizzo di snapshot e pianificazioni di snapshot sono disponibili nel seguente articolo: Data Domain - Gestione delle pianificazioni delle
snapshotRitardo di replica eccessivo:
La replica nativa di Data Domain utilizza un log di replica o snapshot mtree (a seconda del tipo di replica) per tenere traccia dei file o dei dati in sospeso per la replica su un DDR remoto. Il ritardo di replica è il concetto di replica che è in ritardo rispetto alle modifiche apportate alla DDR di origine. Ciò può verificarsi a causa di vari fattori, tra cui:
- Contesto di replica disabilitati
- Larghezza di banda di rete insufficiente tra DDR
- Frequenti disconnessioni di rete.
Se i DDR subiscono un utilizzo elevato e si ritiene che ciò sia dovuto al ritardo nella replica, contattare il provider di supporto con contratto per ulteriore assistenza.
Sono presenti modifiche alla configurazione o determinati fattori su un DDR in grado di aumentare il rapporto di compressione complessivo?
Sì: la rimozione o la risoluzione dei problemi discussi in precedenza in questo documento dovrebbe consentire a un DDR di mostrare un miglioramento del rapporto di compressione complessivo nel tempo. Esistono anche vari fattori o carichi di lavoro su un DDR che possono portare a un aumento del rapporto di deduplica. In genere si tratta di:
- Riduzione della quantità di spazio su disco rigido utilizzata dai file sul DDR (ad esempio aumentando l'aggressività dell'algoritmo di compressione utilizzato dalla DDR)
- Aumento improvviso della quantità di dati precompressi (logici) sul DDR senza un corrispondente aumento dell'utilizzo post-compresso/fisico
Per impostazione predefinita, i DDR comprimeno i dati scritti su disco con l'algoritmo lz . Come accennato in precedenza, lz viene utilizzato in quanto presenta overhead relativamente bassi in termini di CPU necessari per la compressione o la decompressione, ma mostra una ragionevole efficacia nella riduzione delle dimensioni dei dati.
È possibile aumentare l'aggressività dell'algoritmo di compressione per fornire ulteriori risparmi nell'utilizzo post-compresso o del disco rigido (e di conseguenza migliorare il rapporto di compressione complessivo). Gli algoritmi di compressione supportati, in ordine di efficacia (da basso ad alto), sono i seguenti:
- Lz
- gzfast
- Gz
- lz rispetto a gzfast offre una compressione migliore di circa il 15% e utilizza 2 CPU.
- lz rispetto a gz offre una compressione migliore di circa il 30% e consuma 5 volte la CPU.
- gzfast rispetto a gz offre una compressione migliore di circa il 10-15%.
Come indicato nella tabella precedente, più aggressivo è l'algoritmo di compressione, maggiore è la CPU richiesta durante la compressione o la decompressione dei dati. Per questo motivo, le modifiche a un algoritmo più aggressivo devono essere effettuate solo sui sistemi che sono leggermente caricati sotto il normale carico di lavoro. La modifica dell'algoritmo su sistemi altamente caricati può causare un deterioramento estremo delle prestazioni di backup o ripristino e possibili errori o riavvii del file system (causando un'interruzione dell'alimentazione DDR).
Per ulteriori informazioni sulla modifica del tipo di compressione, consultare il seguente articolo: Impatto sulle prestazioni del sistema Data Domain e della pulizia della conversione alla compressione
GZA causa del potenziale impatto della modifica dell'algoritmo di compressione, si consiglia ai clienti interessati a farlo contattare il fornitore del supporto per approfondire la modifica prima di procedere.
Utilizzo di fastcopy del file system:
I DDR consentono l'utilizzo del comando "file system fastcopy" per copiare rapidamente un file (o una struttura ad albero di directory). Questa funzionalità crea un file clonando i metadati di un file esistente (o gruppo di file) in modo che, sebbene i nuovi file non siano fisicamente connessi al file originale, fanno riferimento esattamente agli stessi dati sul disco del file originale. Ciò significa che, indipendentemente dalle dimensioni del file originale, il nuovo file consuma poco spazio sul disco (in quanto deduplica perfettamente rispetto ai dati esistenti).
Il risultato di questo comportamento è che quando si utilizza fastcopy del file system, la dimensione precompressa (logica) dei dati sul DDR aumenta rapidamente, ma l'utilizzo post-compresso/fisico del DDR rimane statico.
Ad esempio, il seguente DDR utilizza il DDR come indicato di seguito (che indica il rapporto di compressione complessivo di circa 1,8x):
Active Tier:
Resource Size GiB Used GiB Avail GiB Use% Cleanable GiB*
---------------- -------- -------- --------- ---- --------------
/data: pre-comp - 12.0 - - -
/data: post-comp 71.5 6.8 64.7 10% 0.0
/ddvar 49.2 1.1 45.6 2% -
/ddvar/core 158.5 0.2 150.2 0% -
---------------- -------- -------- --------- ---- --------------
Contiene un file di grandi dimensioni (/data/col1/backup/testfile):
!!! DDVE60_JF I DATI SONO A RISCHIO !!! # ls -al /data/col1/backup/testfile-rw-r
--r-- 1 root root 3221225472 lug 29 04:20 /data/col1/backup/testfile
Il file viene fastcopy più volte:
sysadmin@DDVE60_JF# filesys fastcopy source /data/col1/backup/testfile destination /data/col1/backup/testfile_copy1
sysadmin@DDVE60_JF# filesys fastcopy source /data /col1/backup/testfile destination /data/col1/backup/testfile_copy2
sysadmin@DDVE60_JF# filesys fastcopy source /data/col1/backup/testfile destination /data/col1/backup/testfile_copy3
Ciò causa un aumento dell'utilizzo precompresso per modifiche minime nell'utilizzo post-compresso:
Active Tier:
Resource Size GiB Used GiB Used GiB Use% Cleanable GiB*
---------------- -------- -------- --------- ---- --------------
/data: pre-comp - 21.0 - - - -
/data: post-comp 71.5 6.8 64.7 10% 0.0
/ddvar 49.2 1.1 45.6 2% -
/ddvar/core 158.5 0.2 150.2 0% -
---------------- -------- -------- --------- ---- --------------
Di conseguenza il DDR ora mostra un rapporto di compressione complessivo di circa 3,1 volte.
Come accennato in precedenza, le statistiche di compressione delle copie mostrano che deduplicano perfettamente:
sysadmin@DDVE60_JF# filesys mostrano i file totali di compressione /data/col1/backup/testfile_copy1
: 1; byte/storage_used: 21331976.1
Byte originali: 3.242.460.364
compressi a livello globale: 0
Compresso in locale: 0 Metadati
: 152
La funzionalità Fastcopy non può essere utilizzata per migliorare il rapporto di compressione complessivo riducendo l'utilizzo fisico del DDR, tuttavia può essere la causa di un elevato rapporto di compressione complessivo (soprattutto in ambienti che utilizzano ampiamente fastcopy come Avamar 6.x).
Affected Products
Data DomainProducts
Data DomainArticle Properties
Article Number: 000064270
Article Type: Solution
Last Modified: 16 Dec 2024
Version: 5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.