Data Domain: domande frequenti sulla compressione
Summary: Questo articolo risponde alle domande più frequenti relative alla compressione. Data Domain Restorer è indipendente dal tipo di dati. Utilizza algoritmi di compressione che eseguono il backup solo dei dati univoci, ovvero i modelli duplicati o i backup multipli vengono archiviati solo una volta. I tassi di compressione tipici hanno un rapporto di 20:1 per molte settimane di backup giornalieri e incrementali. Anche il tipo di dati influisce sul rapporto di compressione, pertanto i file di immagine compressi, i database e gli archivi compressi (ad esempio, i file .zip) non vengono compressi correttamente. ...
Instructions
SI APPLICA A
- Tutte le DDR
- Tutte le versioni
Compressione: Domande frequenti:
1. I backup incrementali e completi utilizzano lo stesso spazio su disco?
Idealmente, è così. In pratica, il backup completo utilizza un po' più di spazio rispetto a quello incrementale per i seguenti motivi. Questi motivi spiegano anche perché un backup completo con nessun cambiamento nei dati utilizza comunque una quantità positiva di spazio.
- I metadati richiedono circa lo 0,5% delle dimensioni logiche del backup. Si supponga che la dimensione logica del backup completo sia 100 GB e quella del backup incrementale sia 2 GB. Si supponga che il backup incrementale venga compresso a 1 GB. Il backup completo richiede quindi almeno 1,5 GB.
- L'engine di compressione DD riscrive alcuni segmenti di dati duplicati per le prestazioni. Minore è la posizione dei dati delle modifiche, maggiore è la scrittura dei dati duplicati. I dati duplicati vengono successivamente recuperati mediante "filesys cleaning". Circa il 2% delle dimensioni logiche sono state riscritte come dati duplicati. Presupponendo questo livello di dati duplicati, il backup completo potrebbe richiedere 1 GB (compresso) + 0,5 GB (metadati) + 2 GB (dati duplicati) = 3,5 GB. La quantità di dati duplicati scritti può essere controllata attraverso un parametro di sistema, ma in genere non viene regolato questo parametro sul campo.
- La segmentazione dei dati può variare leggermente da un backup all'altro, a seconda dell'ordine in cui il client NFS invia i dati. Questo ordine non è deterministico. In generale, l'algoritmo di segmentazione tollera le variazioni e il riordinamento. Tuttavia, crea anche alcuni segmenti "forzati", che sono soggetti a variazioni e riordinamenti. In genere, circa lo 0,2% dei segmenti viene forzato, quindi ci si può aspettare che venga utilizzato molto più spazio.
2. "filesys show space" e "filesys show compression" mostrano numeri diversi:
"filesys show space" fornisce il rapporto di compressione basato sulle dimensioni logiche dei dati archiviati e sullo spazio su disco utilizzato al momento dell'esecuzione del comando.
"filesys show compression" fornisce il rapporto di compressione basato sulla compressione di ciascun file al momento della creazione.
"filesys show compression" viene utilizzato principalmente per il supporto e il debug. In presenza di eliminazioni di file, "filesys show compression" sovrastima il rapporto di compressione.
Ad esempio, si supponga che il primo backup completo abbia una compressione pari a 2x. Un backup completo successivo senza modifiche dei dati ottiene una compressione pari a 200x. Il primo backup completo viene eliminato. "filesys show space" mostra un rapporto di compressione pari a 2x. "filesys show compression" mostra ora un rapporto di compressione pari a 200x, poiché l'unico file esistente ha una compressione pari a 200x al momento della creazione.
Nell'esempio sopra menzionato, dopo il secondo backup, "filesys show space" mostra un rapporto cumulativo pari a circa 4x. Il rapporto cumulativo migliorerebbe asintoticamente verso 200x se il numero di backup aumentasse senza alcuna eliminazione.
Sussistono altre differenze minori:
- "filesys show compression" non tiene conto degli sprechi a livello di container, pertanto sovrastima ulteriormente il rapporto di compressione
- "filesys show compression" non tiene conto dell'eliminazione dei dati duplicati da parte della compressione globale, pertanto sottostima il rapporto di compressione
- "filesys show compression" può fornire informazioni a livello di file o directory, mentre "filesys show space" è limitato all'intero sistema
- "filesys show compression" fornisce la ripartizione tra compressione globale e locale, a differenza di "filesys show space"
RIFERIMENTI
- Perché i rapporti di compressione sono diversi per "filesys show space" e "vtl tape show summary"?
Il rapporto di compressione mostrato in "vtl tape show summary" deve corrispondere a "filesys show compression/backup/vtc".
Più in generale, a questo comando VTL potrebbe essere assegnato un filtro opzionale per selezionare un sottoinsieme di cartucce a nastro e la compressione dovrebbe corrispondere a "filesys show compression" su tale sottoinsieme.
Tuttavia, a causa di un bug nel codice dell'interfaccia utente di VTL, la compressione mostrata in "vtl tape show summary" non è corretta. Si tratta di un problema noto risolto nella versione 4.5.0.0.
- Perché "filesys show compression last 24 hours" non corrisponde alle aspettative per VTL?
Per VTL, l'output di comandi come "filesys show compression last 24 hours" spesso non soddisfa le aspettative in base ad altre origini, ad esempio "system show performance".
Il problema si verifica a causa di una peculiarità in "filesys show compression" (fsc). In generale, "filesys show compression" mostra statistiche cumulative in determinati file. Il qualificatore "last 24 hours" seleziona i file che sono stati aggiornati nelle ultime 24 ore. Le statistiche sono ancora cumulative dal momento in cui il file è stato creato o troncato l'ultima volta fino a raggiungere dimensioni pari a zero. Pertanto, se un file è stato aggiunto nelle ultime 24 ore, "filesys show compression last 24 hours" mostra le statistiche cumulative prima delle ultime 24 ore.
In ambienti non VTL, i file di backup vengono scritti una sola volta, quindi non vi è molta discrepanza tra i file aggiornati e quelli creati. Con VTL i backup possono essere aggiunti a file su nastro esistenti. Ad esempio, prendiamo un nastro con una capacità di 100 GB che viene riempito fino a 50 GB. Se sono stati aggiunti 10 GB di dati a questo nastro nelle ultime 24 ore, "filesys show compression last 24 hours" mostra i "byte originali" del file scritti a 60 GB.
- Come viene calcolato il rapporto di compressione cumulativa?
I singoli rapporti di compressione non si sommano in modo lineare.
Supponiamo che la compressione del primo backup completo sia pari a 2x, mentre quella del secondo backup completo sia pari a 20x. La compressione cumulativa non è (2+20)/2 o 11x, ma 2/(1/2+1/20) o 3,64x.
In generale, rapporti di compressione più bassi hanno un impatto maggiore rispetto a quelli più elevati sul rapporto di compressione cumulativa.
Si supponga che il backup abbia dimensioni logiche "si" e rapporto di compressione "ci". Quindi, il rapporto di compressione cumulativo per i backup k può essere calcolato come segue:
C = (dimensione logica totale)/(spazio totale utilizzato)
Dimensione logica totale = s1 + s2 + .. + sk
Spazio totale utilizzato = s1/c1 + s2/c2 + ... + sk/ck
Spesso, le dimensioni logiche sono più o meno le stesse. Nel caso specifico, il calcolo precedente si riduce a quanto segue:
Ad esempio, se il primo backup completo ottiene una compressione pari a 3x e ogni successivo backup completo ottiene una compressione pari a 30x con periodo di retention di 30 giorni, l'utente vede una compressione cumulativa di 30/(1/3+29/30) o 23x.
- Come funziona la compressione Data Domain?
La risposta a questa domanda è illustrata in dettaglio in un altro articolo della Knowledge Base, "Data Domain: informazioni sulla compressione di Data Domain" Data Domain: Informazioni sulla compressione di Data Domain
- Data Domain supporta il multiplexing?
I dati in multiplexing dell'applicazione di backup determinano una deduplicazione globale molto scarsa. Per ulteriori informazioni, consultare l'articolo correlato al multiplexing non supportato nel software di backup Data Domain: multiplexing nel software di backup (in inglese).
- Con la replica di directory 1 a 1, perché la replica mostra una migliore compressione globale?
Questo è in genere dovuto a variazioni nel livello di segmenti duplicati scritti sul sistema:
-
I dati archiviati sull'origine sono stati deduplicati una volta rispetto ai dati precedenti archiviati al suo interno.
-
I dati inviati tramite rete sono stati deduplicati una volta rispetto ai dati archiviati sulla replica.
-
I dati archiviati sulla replica sono stati deduplicati due volte, una volta quando i dati sono stati inviati tramite rete e di nuovo quando i dati ricevuti sono stati scritti sulla replica.
Poiché il processo di deduplica lascia alcuni duplicati, i dati deduplicati più volte presentano meno duplicati. I dati archiviati sull'origine e inviati tramite rete vengono deduplicati una volta sola, quindi sono più o meno uguali, presupponendo che i dati archiviati sull'origine e sulla replica siano simili. I dati archiviati sulla replica vengono deduplicati due volte, per una migliore compressione.
La pulizia del file system rimuove gran parte dei dati duplicati. Pertanto, dopo aver eseguito la pulizia sull'origine e sulla replica, la quantità di dati archiviati dovrebbe più o meno corrispondere.
- Qual è la modifica nella compressione quando si utilizzano le impostazioni di compressione locale lz, gzfast e gz?
filesys option set compression {none | lz | gzfast | gz}
Avvertenza: prima di modificare il tipo di compressione locale, il file system deve essere arrestato. Può quindi essere riavviato immediatamente dopo aver impostato l'opzione di compressione.
In generale, l'ordine di compressione è il seguente:
La differenza approssimativa è:
- Da lz a gzfast offre una compressione migliore di circa il 15% e utilizza il doppio dello spazio della CPU
- Da lz a gz offre una compressione migliore di circa il 30% e utilizza cinque volte lo spazio della CPU
- Da gzfast a gz offre un miglioramento della compressione di circa il 10-15%.
La modifica della compressione locale influisce in primo luogo sui nuovi dati scritti in Data Domain Restorer dopo la modifica. I dati precedenti conservano il formato di compressione precedente fino al successivo ciclo di pulizia. Il successivo ciclo di pulizia copia tutti i dati precedenti nel nuovo formato di compressione. Questo comporta un tempo maggiore per eseguire la pulizia, nonché un incremento dell'utilizzo della CPU.
Se lo spazio della CPU nel sistema del cliente è già ridotto, in particolare se il cliente sta eseguendo un backup e una replica contemporaneamente, ciò può rallentare i processi. Il cliente potrebbe desiderare di pianificare in modo esplicito una certa quantità di tempo da dedicare a questo processo di conversione.
Riferimenti nella Knowledge Base:
Additional Information