Data Domain: Domande frequenti sulla compressione
Riepilogo: Questo articolo risponde alle domande più frequenti relative alla compressione. I Data Domain sono indipendenti dal tipo di dati. Data Domain utilizza algoritmi di compressione che eseguono il backup solo di dati univoci: modelli duplicati o backup multipli vengono archiviati una sola volta. ...
Questo articolo si applica a
Questo articolo non si applica a
Questo articolo non è legato a un prodotto specifico.
Non tutte le versioni del prodotto sono identificate in questo articolo.
Istruzioni
Sommario
- I backup incrementali e completi utilizzano lo stesso spazio su disco?
- Perche'
filesys show space' e 'filesys show compression' mostrare numeri diversi? - Perche'
filesys show compression last 24 hours' non corrisponde alle aspettative per VTL? - Come viene calcolato il rapporto di compressione cumulativo?
- Come funziona la compressione di Data Domain?
- Data Domain supporta il multiplexing?
- Con la replica di directory 1 a 1, perché la replica mostra una migliore compressione globale?
- Qual è la modifica della compressione quando si utilizzano le impostazioni di compressione locali lz, gzfast e gz?
I tassi di compressione tipici hanno un rapporto di 20:1 per molte settimane di backup giornalieri e incrementali. Il tipo di dati influisce sul rapporto di compressione: i file di immagine compressi, i database e gli archivi compressi (ad esempio i file di .zip) non vengono compressi correttamente.
I backup incrementali e completi utilizzano lo stesso spazio su disco?
Idealmente, è così. In pratica, il backup completo utilizza un po' più di spazio rispetto al backup incrementale per i seguenti motivi. Questi motivi spiegano anche perché un backup completo senza modifiche ai dati utilizza ancora una quantità positiva di spazio.
- I metadati richiedono circa lo 0,5% delle dimensioni logiche del backup. Supponiamo che:
- La dimensione logica del completo è 100 GB
- La dimensione logica dell'incrementale è 2 GB
- Il file incrementale viene compresso a 1 GB
- ... quindi la versione completa richiede almeno 1,5 GB
- L'engine di compressione DD riscrive alcuni segmenti di dati duplicati per migliorare le prestazioni. Minore è la posizione dei dati delle modifiche, maggiore è la scrittura dei dati duplicati. I duplicati vengono successivamente recuperati dalla garbage collection (GC) del file system. In alcuni casi, circa il 2% delle dimensioni logiche viene riscritto come duplicato. Supponendo questo livello di duplicati, il completo potrebbe richiedere 1 GB (compresso) + 0,5 GB (metadati) + 2 GB (duplicati) = 3,5 GB. La quantità di dati duplicati scritti può essere controllata attraverso un parametro di sistema, ma in genere non viene regolato questo parametro sul campo.
- La segmentazione dei dati può variare leggermente da un backup all'altro, a seconda dell'ordine in cui il client NFS invia i dati. Questo ordine non è deterministico. In generale, l'algoritmo di segmentazione tollera gli spostamenti e il riordino. Tuttavia, crea anche alcuni segmenti "forzati", che sono soggetti a spostamenti e riordinamenti. In genere, circa lo 0,2% dei segmenti viene forzato, quindi ci si può aspettare un utilizzo molto più ampio dello spazio.
Perche'filesys show space' e 'filesys show compression' mostrare numeri diversi?
- '
filesys show space' fornisce il rapporto di compressione in base alle dimensioni logiche dei dati archiviati e allo spazio su disco utilizzato al momento dell'esecuzione del comando. - '
filesys show compression' fornisce il rapporto di compressione in base al modo in cui ciascun file è stato compresso al momento della creazione. - '
filesys show compression' viene utilizzato principalmente per il supporto e il debug. In presenza di cancellazioni di file, 'filesys show compression' sovrastima il rapporto di compressione.
Si supponga, ad esempio, che:
- Il primo backup completo ottiene una compressione 2x
- Un backup completo successivo senza modifiche ai dati ottiene una compressione 200 volte superiore
- Viene eliminato il primo backup completo
L'output di '
filesys show space' mostrerebbe un rapporto di compressione di 2x, mentre 'filesys show compression' mostrerebbe un rapporto di compressione di 200x, perché l'unico file esistente ora ha un rapporto di compressione di 200x quando è stato creato.
Nell'esempio precedente, dopo il secondo backup, '
filesys show space' mostrerebbe un rapporto cumulativo di circa 4 volte. Il rapporto cumulativo migliorerebbe asintoticamente verso 200 volte se si continuasse con più backup senza eliminazione.
Ci sono altre piccole differenze. Il '
filesys show compression' comando:
- Non tiene conto degli sprechi a livello di container, sovrastimando ulteriormente il rapporto di compressione
- Non tiene conto dell'eliminazione dei duplicati da parte della compressione globale, sottostimando quindi il rapporto di compressione
- Può fornire informazioni per file o per directory, mentre '
filesys show space» è limitato all'intero sistema - Fornisce la suddivisione tra compressione globale e locale, mentre "
filesys show space» non
Perche'filesys show compression last 24 hours' non corrisponde alle aspettative per VTL?
Per VTL, l'output di comandi come "
filesys show compression last 24 hours" spesso non soddisfa le aspettative basate su altre fonti come "system show performance'.
Il problema si verifica a causa di una particolarità nell'
filesys show compression'. In generale, mostra le statistiche cumulative nei file selezionati. Il qualificatore "ultime 24 ore" seleziona i file aggiornati nelle ultime 24 ore. Le statistiche sono ancora cumulative dal momento in cui il file è stato creato o troncato l'ultima volta fino a raggiungere dimensioni pari a zero. Pertanto, se un file è stato aggiunto nelle ultime 24 ore, 'filesys show compression last 24 hours' mostra le statistiche cumulative prima delle ultime 24 ore.
I file di backup in ambienti non VTL vengono scritti una sola volta, pertanto vi è poca discrepanza tra i file aggiornati e i file creati. Con la VTL, i backup possono essere aggiunti ai file nastro esistenti. Si consideri, ad esempio, un nastro da 100 GB che viene riempito fino a 50 GB. Se nelle ultime 24 ore sono stati aggiunti 10 GB di dati a questo nastro, '
filesys show compression last 24 hours' mostra i "byte originali" del file scritti a 60 GB.
Come viene calcolato il rapporto di compressione cumulativo?
I singoli rapporti di compressione non si sommano linearmente.
Si supponga che la compressione sul primo backup completo sia 2x e che sul secondo backup completo sia 20x. La compressione cumulativa non è
(2 + 20) / 2 = 11xMa 2 / (1/2 + 1/20) = 3.64x.
In generale, rapporti di compressione più bassi hanno un impatto maggiore di quelli più alti sul rapporto di compressione cumulativo.
Supponiamo che il
ith Il backup ha dimensioni logiche si e rapporto di compressione ci. Quindi, il rapporto di compressione cumulativo per k I backup possono essere calcolati come segue:
C = (total logical size)/(total space used)
total logical size = s1 + s2 + .. + sk
total space used = s1/c1 + s2/c2 + ... + sk/ck
Spesso, le dimensioni logiche sono più o meno le stesse. Nel caso specifico, il calcolo precedente si riduce a quanto segue:
C = k / (1/c1 + 1/c2 + ... + 1/ck)
Ad esempio, se:
- Il primo backup completo ottiene una compressione 3 volte superiore
- Ogni completo successivo ottiene una compressione 30 volte superiore
- Il periodo di retention è di 30 giorni
L'utente visualizza una compressione cumulativa di 30 / (1/3 + 29/30)o 23 volte.
Come funziona la compressione di Data Domain?
A questa domanda viene data una risposta dettagliata in un articolo separato: Informazioni sulla compressione di Data Domain
Data Domain supporta il multiplexing?
I dati multiplexati dall'applicazione di backup determinano una deduplica globale molto ridotta. Per ulteriori informazioni, consultare questo articolo: Data Domain: Multiplexing nel software di backup
Con la replica di directory 1 a 1, perché la replica mostra una migliore compressione globale?
Questo è in genere dovuto a variazioni nel livello di segmenti duplicati scritti sul sistema:
- I dati archiviati nell'origine sono stati deduplicati una sola volta, rispetto ai dati precedenti archiviati nell'origine.
- I dati inviati via cavo sono stati deduplicati una sola volta, rispetto ai dati archiviati nella replica.
- I dati archiviati sulla replica sono stati deduplicati due volte, una volta quando i dati sono stati inviati tramite rete e di nuovo quando i dati ricevuti sono stati scritti sulla replica.
Poiché il processo di deduplica lascia alcuni duplicati, i dati deduplicati più volte presentano meno duplicati. I dati archiviati sull'origine e inviati tramite rete vengono deduplicati una volta sola, quindi sono più o meno uguali, presupponendo che i dati archiviati sull'origine e sulla replica siano simili. I dati archiviati sulla replica vengono deduplicati due volte, per una migliore compressione.
La pulizia del file system rimuove la maggior parte dei duplicati. Pertanto, dopo aver eseguito la pulizia sull'origine e sulla replica, la quantità di dati archiviati dovrebbe più o meno corrispondere.
Qual è la variazione nella compressione quando si utilizza lz, gzfaste gz Impostazioni di compressione locale?
Utilizzare il seguente comando per modificare l'algoritmo di compressione locale utilizzato in un Data Domain:
filesys option set compression {none | lz | gzfast | gz}
Nota: Il file system deve essere arrestato prima di modificare il tipo di compressione locale. Può quindi essere riavviato immediatamente dopo aver impostato l'opzione di compressione.
In generale, l'ordine di compressione è il seguente:
lz < gzfast < gz
| digitare | Comp. previsto | Carico della CPU |
|---|---|---|
| Nessuna | 1x | 0 volte |
| Lz | 2 volte | 1x |
| gzfast | 2,5 volte | 2 volte |
| Gz | 3 volte | 5 volte |
La differenza approssimativa è:
lz to gzfastoffre una compressione migliore del ~15% e consuma 2 volte la CPUlz to gzoffre una compressione migliore del ~30% e consuma 5 volte la CPUgzfast to gzOffre una compressione migliore del ~10-15%
Si noti che la modifica della compressione locale influisce prima sui nuovi dati scritti in Data Domain dopo l'apposizione della modifica. I dati precedenti conservano il formato di compressione precedente fino al successivo ciclo di pulizia. Il ciclo di pulizia successivo copia in avanti tutti i vecchi dati nel nuovo formato di compressione. Questo comporta un tempo maggiore per eseguire la pulizia, nonché un incremento dell'utilizzo della CPU.
Se il sistema ha già una CPU insufficiente, in particolare se i backup e la replica vengono eseguiti contemporaneamente, ciò può rallentare i backup e. Il cliente potrebbe desiderare di pianificare in modo esplicito una certa quantità di tempo da dedicare a questo processo di conversione.
Informazioni aggiuntive
Riferimenti della knowledgebase:
Prodotti interessati
Data DomainProdotti
Data DomainProprietà dell'articolo
Numero articolo: 000022100
Tipo di articolo: How To
Ultima modifica: 24 apr 2026
Versione: 12
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.