Data Domain, preguntas frecuentes sobre compresión

Summary: En este artículo, se responden las preguntas más frecuentes sobre la compresión. Los Data Domain Restorers son independientes del tipo de datos. Restorer utiliza algoritmos de compresión que respaldarán solo datos únicos; los patrones duplicados o varios respaldos se almacenan solo una vez. Las tasas de compresión típicas son de 20:1 durante muchas semanas de respaldos diarios e incrementales. Además, el tipo de datos tiene un efecto en la tasa de compresión, por lo que los archivos de imagen comprimidos, las bases de datos y los archivos comprimidos (por ejemplo, los archivos .zip) no se comprimen bien. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

SE APLICA A

  • Todas las DDR
  • Todas las versiones

 

Compresión: Preguntas frecuentes:


1. ¿Los respaldos incrementales y completos utilizarán el mismo espacio de disco?
 

Idealmente, esto sería cierto. En la práctica, el respaldo completo utiliza un poco más de espacio que el incremental debido a las siguientes razones. Estas razones también explican por qué un respaldo completo después de que no haya cambios en los datos seguirá consumiendo una cantidad positiva de espacio.

  • Los metadatos ocupan aproximadamente el 0,5 % del tamaño lógico del respaldo. Supongamos que el tamaño lógico completo es de 100 GB y el incremental es de 2 GB. Supongamos que el incremental se comprime a 1 GB. Luego, el completo ocupará al menos 1,5 GB.
  • El motor de compresión de DD reescribirá algunos segmentos de datos duplicados para mejorar el rendimiento. Cuanto más deficiente sea la ubicación de datos de los cambios, más duplicados se escribirán. Los duplicados se recuperan posteriormente mediante la “filesys cleaning”. He visto alrededor del 2 % del tamaño lógico reescrito como duplicado. Suponiendo este nivel de duplicados, el completo podría tomar 1 GB (comprimido) + 0,5 GB (metadatos) + 2 GB (duplicados) = 3,5 GB. La cantidad de duplicados escritos se puede controlar a través de un parámetro del sistema, pero generalmente no ajustamos este parámetro en el campo.
  • La segmentación de datos puede variar un poco de un respaldo a otro según el orden en que el cliente NFS envía los datos. Este orden no es determinista. En general, el algoritmo de segmentación tolera los cambios y el reordenamiento. Sin embargo, también crea algunos segmentos “forzados”, que son propensos a cambios y reordenamientos. Por lo general, alrededor del 0,2 % de los segmentos están forzados, por lo que se puede esperar que se utilice mucho más espacio.

2. “filesys show space” y “filesys show compression” muestran números diferentes:
 

“filesys show space” proporciona la tasa de compresión basada en el tamaño lógico de los datos almacenados y el espacio de disco utilizado en el momento en que se ejecuta el comando.

“filesys show compression” proporciona la tasa de compresión en función de cómo se comprimió cada archivo en el momento en que se creó.

“filesys show compression” se utiliza principalmente para soporte y depuración. En presencia de eliminaciones de archivos, “filesys show compression” sobreestima la tasa de compresión.

Por ejemplo, se supone que el primer respaldo completo obtiene una compresión de 2x. Un respaldo completo subsiguiente sin cambios en los datos obtiene una compresión de 200x. Se elimina el primer respaldo completo. “filesys show space” mostrará una tasa de compresión de 2x. “filesys show compression” ahora mostrará una tasa de compresión de 200x, ya que el único archivo que existe ahora tiene una compresión de 200x cuando se creó.

En el ejemplo mencionado anteriormente, después del segundo respaldo, “filesys show space” mostrará la relación acumulada de aproximadamente 4x. La tasa acumulada mejoraría asintóticamente hacia 200x si se siguiera haciendo más respaldos sin eliminación.

Hay algunas otras diferencias menores:

  •  “filesys show compression” no tiene en cuenta el desperdicio en el nivel del contenedor, por lo que sobreestima aún más la tasa de compresión
  •  “filesys show compression” no tiene en cuenta la eliminación de duplicados por compresión global, por lo que subestima la tasa de compresión
  •  “filesys show compression” puede proporcionar información por archivo o por directorio, mientras que “filesys show space” se limita a todo el sistema
  •  “filesys show compression” proporciona el desglose entre la compresión global y local, mientras que “filesys show space” no lo hace
 

REFERENCIAS

 
  • ¿Por qué las tasas de compresión son diferentes para “filesys show space” y “vtl tape show summary”?

La tasa de compresión que se muestra en “vtl tape show summary” está diseñada para coincidir con “filesys show compression /backup/vtc”.

De manera más general, este comando VTL puede recibir un filtro opcional para seleccionar un subconjunto de cartuchos de cinta y se supone que la compresión debe coincidir con “filesys show compression” en ese subconjunto de cartuchos.

Sin embargo, debido a un error en el código de la interfaz del usuario de VTL, la compresión que se muestra en “vtl tape show summary” es incorrecta. Este es un problema conocido que se resolvió en la versión 4.5.0.0.
 

  • ¿Por qué “filesys show compression last 24 hours” no coincide con las expectativas para VTL?

Para VTL, la salida de comandos como “filesys show compression last 24 hours” a menudo no cumple las expectativas basadas en otras fuentes, como “system show performance”.

El problema ocurre debido a una peculiaridad en “filesys show compression” (fsc). En general, “filesys show compression” muestra las estadísticas acumuladas en los archivos seleccionados. El calificador “last 24 hours” selecciona los archivos que se actualizaron en las últimas 24 horas. Las estadísticas aún son acumuladas desde que se creó el archivo o se truncó por última vez a tamaño cero. Por lo tanto, si se anexó un archivo en las últimas 24 horas, “filesys show compression last 24 hours” mostrará las estadísticas acumuladas antes de las últimas 24 horas.

En entornos que no son de VTL, los archivos de respaldo se escriben solo una vez, por lo que no hay mucha discrepancia entre los archivos actualizados y los archivos creados. Con VTL, los respaldos se pueden anexar a archivos de cinta existentes. Por ejemplo, considere una cinta de 100 GB de capacidad que se llena hasta 50 GB. Si se agregan 10 GB de datos a esta cinta en las últimas 24 horas, “filesys show compression last 24 hours” mostrará los “Original bytes” del archivo escritos a 60 GB.
 

  • ¿Cómo se computa la tasa de compresión acumulada?

Las tasas de compresión individuales no se suman linealmente.

Suponga que la compresión en el primer respaldo completo es 2x y la del segundo respaldo completo es 20x. La compresión acumulada no es (2+20)/2 o 11x, sino 2/(1/2+1/20) o 3,64x.

En general, las tasas de compresión más bajas tienen más impacto que las más altas en la tasa de compresión acumulada.

Suponga que el respaldo ith tiene un tamaño lógico si y una relación de compresión ci. A continuación, la tasa de compresión acumulada para respaldos k se puede calcular de la siguiente manera:

C = (tamaño lógico total)/(espacio total utilizado)
tamaño lógico total = s1 + s2 + .. + sk
espacio total utilizado = s1/c1 + s2/c2 + ... + sk/ck


A menudo, los tamaños lógicos son aproximadamente idénticos. En ese caso, el cálculo anterior se simplifica a lo siguiente:

C = k/(1/c1 + 1/c2 + ... + 1/ck)


Por ejemplo, si el primer respaldo completo obtiene una compresión de 3x, y cada respaldo completo subsiguiente obtiene una compresión de 30x, y el período de retención es de 30 días, el usuario ve una compresión acumulada de 30/(1/3+29/30) o 23x.
 

  • ¿Cómo funciona la compresión de Data Domain?

Esta pregunta se responde en detalle en un artículo independiente de la base de conocimientos, “Comprensión de Data Domain” Data Domain: Descripción de la compresión de Data Domain
 

  • ¿Data Domain soporta la multiplexación? ​​​​​​​

Los datos multiplexados de la aplicación de respaldo darán como resultado una desduplicación global muy deficiente. Para obtener más información, consulte el artículo relacionado La multiplexación en el software de respaldo no está soportada Data Domain: Multiplexación en software de respaldo
 

  • Con la replicación de directorios 1 a 1, ¿por qué la réplica muestra una mejor compresión global?​​​​​​​

Por lo general, esto se debe a variaciones en el nivel de segmentos duplicados escritos en el sistema:

  • Los datos almacenados en la fuente se desduplicaron una vez, en comparación con los datos anteriores almacenados en la fuente.
  • Los datos enviados a través del cable se desduplicaron una vez, en función de los datos almacenados en la réplica.
  • Los datos almacenados en la réplica se desduplicaron dos veces, una cuando los datos se enviaron por cable y otra vez cuando los datos recibidos se escribieron en la réplica.

 

Dado que el proceso de desduplicación deja algunos duplicados, los datos que se desduplicaron varias veces tienen menos duplicados. Los datos almacenados en la fuente y enviados a través de la conexión se desduplican una vez, por lo que son aproximadamente los mismos, suponiendo que los datos almacenados en la fuente y la réplica son similares. Los datos almacenados en la réplica se desduplican dos veces, por lo que se comprimen mejor.

“Filesystem cleaning” elimina la mayoría de los duplicados. Por lo tanto, después de ejecutar la limpieza en la fuente y la réplica, la cantidad de datos almacenados allí debe ser aproximadamente idéntica.

 
  • ¿Cuál es el cambio en la compresión cuando se utiliza la configuración de compresión local lz, gzfast y gz?
El algoritmo de compresión local utilizado en un DDR se puede cambiar mediante el siguiente comando:
 

filesys option set compression {none | lz | gzfast | gz}
 

Advertencia: Antes de cambiar el tipo de compresión local, se debe apagar el sistema de archivos. Se puede reiniciar inmediatamente después de establecer la opción de compresión.

 

En general, el orden de compresión es el siguiente:

lz < gzfast < gz

 

La diferencia aproximada es:

  • De lz a gzfast proporciona una compresión aproximada del 15 % mejor y consume 2x CPU
  • De lz a gz proporciona una mejor compresión aproximada del 30 % y consume 5x CPU
  • gzfast a gz proporciona una mejor compresión aproximada del 10 al 15 %


Tenga en cuenta que el cambio de la compresión local afecta primero a los datos nuevos escritos en el DataDomain Restorer después de realizar el cambio. Los datos antiguos conservan su formato de compresión anterior hasta el siguiente ciclo de limpieza. El siguiente ciclo de limpieza copiará todos los datos antiguos en el nuevo formato de compresión. Esto hace que la limpieza dure mucho más tiempo y requiera más CPU.

Si el sistema del cliente ya tiene poca CPU, especialmente si el cliente está realizando el respaldo y la replicación simultáneamente, esto puede ralentizar su respaldo o replicación. Es posible que el cliente desee programar explícitamente una hora para realizar esta conversión.

 

Referencias de conocimiento:

Additional Information

 

    Affected Products

    Data Domain

    Products

    Data Domain
    Article Properties
    Article Number: 000022100
    Article Type: How To
    Last Modified: 02 Oct 2024
    Version:  11
    Find answers to your questions from other Dell users
    Support Services
    Check if your device is covered by Support Services.