Data Domain, FAQ sobre compactação
Summary: Este artigo responde às perguntas mais frequentes sobre compactação. Os Data Domain Restorers são independentes do tipo de dados. O Restorer usa algoritmos de compactação que farão backup apenas de dados exclusivos, padrões duplicados ou vários backups são armazenados apenas uma vez. As taxas de compactação típicas são de 20:1 ao longo de muitas semanas de backups diários e incrementais. Além disso, o tipo de dados tem um efeito sobre a taxa de compactação, de modo que arquivos de imagem compactados, bancos de dados e arquivos compactados (por exemplo, arquivos .zip) não são bem compactados. ...
Instructions
APLICA-SE A
- Todos os DDRs
- Todos os lançamentos
Compactação: Perguntas frequentes:
1. Os backups incrementais e completos usarão o mesmo espaço em disco?
O ideal seria que isso fosse verdade. Na prática, o backup completo usa um pouco mais de espaço do que o incremental devido aos seguintes motivos. Esses motivos também explicam por que um backup completo sem alterações nos dados ainda consumirá uma quantidade significativa de espaço.
- Os metadados ocupam cerca de 0,5% do tamanho lógico do backup. Suponha que o tamanho lógico do completo seja de 100 GB e o do incremental seja de 2 GB. Suponha que a compactação incremental seja de 1 GB. Então o completo consumirá pelo menos 1,5 GB.
- O mecanismo de compactação do DD regravará alguns segmentos de dados duplicados para fins de desempenho. Quanto pior a localidade dos dados das alterações, mais cópias são gravadas. As cópias são recuperadas posteriormente pelo "filesys cleaning". Observou-se cerca de 2% do tamanho lógico regravado como duplicado. Considerando esse nível de cópias, o total pode consumir 1 GB (compactado) + 0,5 GB (metadados) + 2 GB (cópias) = 3,5 GB. A quantidade de cópias gravadas pode ser controlada por meio de um parâmetro do sistema, mas geralmente não ajustamos esse parâmetro no campo.
- A segmentação de dados pode variar um pouco de backup para backup, dependendo da ordem em que o client NFS envia os dados. Essa ordem não é determinista. Em geral, o algoritmo de segmentação tolera mudanças e reordenação. No entanto, isso também cria alguns segmentos "forçados", que são propensos a mudanças e reordenação. Normalmente, cerca de 0,2% dos segmentos são forçados, então pode-se esperar que muito mais espaço seja usado.
2. O "filesys show space" e o "filesys show compression" mostram números diferentes:
"filesys show space" fornece a taxa de compactação com base no tamanho lógico dos dados armazenados e no espaço em disco usado no momento em que o comando é executado.
"filesys show compression" fornece a taxa de compactação com base em como cada arquivo foi compactado no momento em que foi criado.
"filesys show compression" é usado principalmente para suporte e depuração. Na presença de exclusões de arquivos, o "filesys show compression" superestima a taxa de compactação.
Por exemplo, supõe-se que o primeiro backup completo tenha uma compactação de 2x. Um backup completo subsequente sem alterações nos dados obtém compactação de 200x. O primeiro backup completo é excluído. "filesys show space" mostrará uma taxa de compactação de 2x. "filesys show compression" agora mostrará uma taxa de compactação de 200x, porque o único arquivo que existe agora teve uma compactação de 200x quando foi criado.
No exemplo mencionado acima, após o segundo backup, "filesys show space" mostrará uma taxa cumulativa de cerca de 4x. A taxa cumulativa melhoraria assintoticamente para 200x se continuasse fazendo mais backups sem exclusão.
Existem algumas outras pequenas diferenças:
- "filesys show compression" não leva em conta o desperdício no nível do contêiner, superestimando ainda mais a taxa de compactação
- "filesys show compression" não leva em conta a eliminação duplicada por compactação global, subestimando assim a taxa de compactação
- "filesys show compression" pode fornecer informações por arquivo ou por diretório, enquanto "filesys show space" é limitado a todo o sistema
- "filesys show compression" fornece o detalhamento entre a compactação global e local, ao passo que "filesys show space" não o faz
REFERÊNCIAS
- Por que as taxas de compactação são diferentes para "filesys show space" e "vtl tape show summary"?
A taxa de compactação mostrada em "vtl tape show summary" destina-se a corresponder a "filesys show compression /backup/vtc".
De modo mais geral, esse comando VTL pode receber um filtro opcional para selecionar um subconjunto de cartuchos de fita, e a compactação deve corresponder a "filesys show compression" nesse subconjunto de cartuchos.
No entanto, devido a um bug no código da IU da VTL, a compactação mostrada em "vtl tape show summary" está incorreta. Esse é um problema conhecido que foi resolvido na versão 4.5.0.0.
- Por que "filesys show compression last 24 hours" não corresponde às expectativas para VTL?
Para VTL, a saída de comandos como "filesys show compression last 24 hours" geralmente não atende à expectativa com base em outras fontes, como "system show performance".
O problema acontece devido a uma peculiaridade em "filesys show compression" (fsc). Em geral, "filesys show compression" mostra estatísticas cumulativas em arquivos selecionados. O qualificador "last 24 hours" seleciona os arquivos que foram atualizados nas últimas 24 horas. As estatísticas ainda são cumulativas desde que o arquivo foi criado ou truncado pela última vez para o tamanho zero. Assim, se um arquivo foi anexado nas últimas 24 horas, "filesys show compression last 24 hours" mostrará as estatísticas cumulativas antes das últimas 24 horas.
Em ambientes não VTL, os arquivos de backup são gravados apenas uma vez, portanto, não há muita discrepância entre os arquivos atualizados e os arquivos criados. Com a VTL, os backups podem ser acrescentados aos arquivos de fita existentes. Por exemplo, considere uma fita de capacidade de 100 GB preenchida com 50 GB. Se 10 GB de dados forem acrescentados a essa fita nas últimas 24 horas, "filesys show compression last 24 hours" mostrará os "bytes originais" do arquivo gravados em 60 GB.
- Como a taxa de compactação cumulativa é calculada?
As taxas de compactação individuais não se somam linearmente.
Suponha que a compactação no primeiro backup completo seja 2x e a do segundo backup completo seja 20x. A compactação cumulativa não é (2+20)/2 ou 11x, mas 2/(1/2+1/20) ou 3,64x.
Em geral, taxas de compactação mais baixas têm mais impacto do que as mais altas na taxa de compactação cumulativa.
Suponha que o i-ésimo backup tenha tamanho lógico si e taxa de compactação ci. Então, a taxa de compactação cumulativa para backups k pode ser calculada da seguinte maneira:
C = (tamanho lógico total)/(espaço total utilizado)
tamanho lógico total = s1 + s2 + ... + sk
espaço total usado = s1/c1 + s2/c2 + ... + sk/ck
Muitas vezes, os tamanhos lógicos são aproximadamente os mesmos. Nesse caso, o cálculo acima é simplificado da seguinte forma:
Por exemplo, se o primeiro backup completo obtiver compactação de 3x, e cada completo subsequente obtiver compactação de 30x, e o período de retenção for de 30 dias, o usuário verá uma compactação cumulativa de 30/(1/3+29/30) ou 23x.
- Como funciona a compactação do Data Domain?
Essa pergunta é respondida em detalhes em um artigo separado da KB, "Noções básicas sobre compactação do Data Domain", Data Domain: Noções básicas sobre a compactação do Data Domain
- O Data Domain é compatível com multiplexação?
Dados multiplexados do aplicativo de backup resultarão em uma desduplicação global muito ruim. Para obter mais informações, consulte o artigo relacionado Multiplexação no software de backup não é compatível, Data Domain: Multiplexação no software de backup.
- Com a replicação de diretório de um para um, por que a réplica mostra melhor compactação global?
Isso geralmente ocorre devido a variações no nível de segmentos duplicados gravados no sistema:
-
Os dados armazenados na origem foram desduplicados uma vez em comparação com os dados anteriores armazenados na origem.
-
Os dados enviados pela rede foram desduplicados uma vez em relação aos dados armazenados na réplica.
-
Os dados armazenados na réplica foram desduplicados duas vezes, uma vez quando os dados foram enviados pela rede e novamente quando os dados recebidos foram gravados na réplica.
Como o processo de desduplicação deixa algumas cópias, os dados que foram desduplicados várias vezes têm menos cópias. Os dados armazenados na origem e enviados pela rede são desduplicados uma vez, portanto, são praticamente os mesmos, considerando que os dados armazenados na origem e na réplica sejam semelhantes. Os dados armazenados na réplica são desduplicados duas vezes, portanto, é melhor compactá-los.
A limpeza do file system remove a maioria das cópias. Portanto, depois que a limpeza for executada na origem e na réplica, o volume de dados armazenados deverá ser praticamente o mesmo.
- Qual é a alteração na compactação ao usar as configurações de compactação local lz, gzfast e gz?
filesys option set compression {none | lz | gzfast | gz}
Advertência: Antes de alterar o tipo de compactação local, o file system deve ser desligado. Em seguida, ele pode ser reiniciado imediatamente após a opção de compactação ter sido definida.
Em geral, a ordem de compactação é a seguinte:
A diferença aproximada é:
- lz para gzfast oferece cerca de 15% melhor compressão e consome 2x a CPU
- lz para gz oferece 30% melhor compressão e consome 5x a CPU
- gzfast para gz oferece 10–15% melhor compressão
Note que alterar a compactação local afeta primeiro os novos dados gravados no DataDomain Restorer depois que a alteração foi feita. Os dados antigos mantêm seu formato de compactação anterior até o próximo ciclo de limpeza. O próximo ciclo de limpeza copiará e encaminhará todos os dados antigos para o novo formato de compactação. Isso faz com que a limpeza seja executada por muito mais tempo e consuma mais CPU.
Se o sistema do cliente já estiver com pouca CPU, em especial se o cliente estiver fazendo backup e replicação simultaneamente, isso poderá diminuir a velocidade do backup e/ou replicação. O cliente pode querer agendar explicitamente algum horário para fazer essa conversão.
Referências de conhecimento:
Additional Information