Avamar: Treinamento e conceitos sobre gerenciamento de capacidade
Summary: Este artigo aborda o gerenciamento de capacidade do sistema operacional e do usuário do Avamar. Para administradores do sistema Avamar ou para aqueles que monitoram a integridade de uma grade do Avamar e precisam de um conhecimento prático para gerenciar os níveis de capacidade do sistema operacional e do usuário. ...
Symptoms
Objetivos deste artigo:
- Resumir os tipos de dados armazenados nas partições /data*.
- Apresentar o conceito de "capacidade do sistema operacional" e compará-lo com o conceito de "capacidade do usuário" (às vezes, chamado de "capacidade GSAN").
- Explicar por que o Avamar não deve ser executado próximo ao limite de capacidade do usuário.
- Listar os fatores que contribuem para a sobrecarga de checkpoint.
- Descrever como monitorar a utilização da partição de dados.
- Descrever os sintomas observados nos casos em que a capacidade do sistema operacional sai do controle.
- Listar as causas típicas da mensagem
MSG_ERR_DISKFULL. - Descrever os métodos de recuperação que poderão ser realizados quando a alta utilização da capacidade do sistema operacional afetar a operação normal do sistema.
- Descrever os sintomas observados nos casos em que a utilização da capacidade do usuário excede o limite.
- Discutir como se recuperar de uma situação de alta utilização da capacidade do usuário.
Este artigo presume que o leitor esteja familiarizado coma seção "Gerenciando a capacidade" do Guia de práticas recomendadas operacionais do Avamar.
Os guias relevantes para o seu ambiente operacional estão localizados em Como localizar a documentação do Avamar no site de Suporte Dell.
Problemas comuns que afetam a "capacidade do sistema operacional" ou são sintomas de uma utilização muito alta dessa capacidade:
- Falha na validação do checkpoint (hfscheck).
- Falha na execução da coleta de lixo e relatórios com a mensagem MSG_ERR_DISKFULL.
- Falha na criação de checkpoint.
- Falha nos backups.
- Falha nos trabalhos de replicação recebidos.
- A interface do administrador mostra o sistema no modo "Admin" durante a janela de backup.
Cause
Resolution
Como os dados são armazenados na grade do Avamar?
O gerenciamento de capacidade do Avamar diz respeito aos dados localizados nas partições /data* de todos os nós de dados do Avamar. Eles são compostos por:
- Dados de backup desduplicados
- Dados de paridade RAIN
- Dados de sobrecarga de checkpoint
Também é necessário espaço livre nas partições de dados para que tarefas de manutenção, como coleta de lixo e processamento assíncrono de frações, sejam executadas corretamente.
Veja abaixo uma representação gráfica do espaço de armazenamento físico que está disponível nas partições de dados dos nós de armazenamento do Avamar.
Como os dados são armazenados nas partições de dados?
No diagrama acima, podemos ver uma representação simples de como o espaço é usado nas partições de dados.
O valor de 100%, à esquerda, é definido como a quantidade total de espaço físico disponível para o sistema operacional nas partições de dados.
Se qualquer uma das partições de dados consumir mais de 85% do espaço total, a coleta de lixo não poderá ser executada.
O marcador de capacidade do usuário de 100% (limite somente leitura) indica que até 65% do espaço total na partição de dados está disponível para armazenamento de dados desduplicados. O espaço abaixo desse marcador de capacidade do usuário de 100% é equivalente ao valor de utilização do servidor, que fica visível na IU do administrador. Se a quantidade de dados desduplicados armazenada em qualquer partição de dados de algum nó atingir 65%, o sistema Avamar se tornará somente leitura e recusará mais dados de backup.
Agora podemos entender que, na IU do Avamar Administrator, o usuário tem visibilidade do espaço consumido pelos backups, mas ele não tem visibilidade do espaço consumido nas partições de dados do sistema operacional.
Por que um sistema Avamar não deve ser executado com a "capacidade do usuário" próxima ao limite?
A relação entre a alta utilização da "capacidade do usuário" e a sobrecarga de checkpoint ocorre de tal forma que, conforme um sistema fica cada vez mais cheio, até mesmo pequenos aumentos nos dados de backup podem causar grandes aumentos na sobrecarga de checkpoint.
Uma discussão completa sobre esse caso está além do escopo deste artigo. No entanto, é importante lembrar que: Quanto mais próximo um sistema Avamar estiver de utilizar 100% da capacidade do usuário, menos capacidade do sistema operacional estará disponível para a sobrecarga de checkpoint.
Em um sistema cheio, como podemos ver no diagrama acima, a sobrecarga de checkpoint é limitada a 20% do espaço total do sistema operacional nas partições de dados.
Para que um sistema Avamar seja executado de forma confiável em altos níveis de "capacidade do usuário", ele deve atender aos seguintes critérios:
- O sistema precisa ter uma taxa baixa de dados alterados diariamente (não superior a 1%)
- A capacidade deve estar em estado estável (conforme descrito na seção "Gerenciando a capacidade" do Guia de práticas recomendadas operacionais do Avamar). Os guias relevantes para o seu ambiente operacional podem ser encontrados em: Como localizar a documentação de suporte do Avamar no site do Suporte Dell.
- As tarefas de manutenção devem ser concluídas com êxito, todos os dias.
Fatores que contribuem para a sobrecarga de checkpoint:
Os fatores a seguir podem fazer com que a sobrecarga de checkpoint aumente.
- Processamento assíncrono de frações (ativado por padrão)
- Número de checkpoints armazenados no sistema
- Validação de checkpoint não concluída com êxito todos os dias.
- Foma como as frações vazias estão quando o Avamar Server as reutiliza (a situação fica ainda mais grave com uma utilização maior do servidor)
- Taxa de alteração do backup diário<
Como monitorar a utilização de partições de dados:
A maneira correta de monitorar a utilização da partições de dados do sistema operacional é executar o seguinte comando do Avamar, a partir do Avamar Utility Node.
Por exemplo:
admin@utilitynode:~/>: avmaint nodelist | grep fs-percent
fs-percent-full="7.8"
fs-percent-full="6.3"
fs-percent-full="6.4"
fs-percent-full="6.4"
fs-percent-full="7.6"
fs-percent-full="6.2"
fs-percent-full="6.1"
fs-percent-full="6.6"
fs-percent-full="7.8"
fs-percent-full="6.4"
fs-percent-full="6.5"
fs-percent-full="6.8"
Esse resultado fornece uma leitura verdadeira da utilização da capacidade do sistema operacional. Em uma grade, em que os nós de dados usam um pool de arquivos, o comando df do Linux não é significativo porque as frações são pré-alocadas no pool de arquivos, e muitas delas podem não estar em uso.
O que acontecerá se o uso da capacidade do sistema operacional ficar fora de controle?
Do ponto de vista de um usuário, a primeira indicação de que a utilização da partição de dados está fora de controle ocorre quando ela fica acima de 85%.
A coleta de lixo não pode mais ser executada e falhará com uma mensagem de erro
MSG_ERR_DISKFULL .
Veja onde os enganos geralmente ocorrem: Normalmente, o usuário acha que a mensagem
MSG_ERR_DISKFULL indica que o sistema não tem mais espaço para backups.
Essa interpretação não está correta, apesar de o usuário geralmente verificar o valor de utilização do servidor na IU do Avamar Administrator e considerar o valor aceitável, por exemplo, 60%.
O usuário pode tentar excluir backups da interface de gerenciamento de backups da IU do Avamar. Mesmo que o nível de capacidade do usuário estivesse alto, a exclusão de backups não aliviaria a situação, pois a coleta de lixo não consegue ser executada nem remover fragmentos expirados de dados do sistema.
Se um sistema estiver enfrentando problemas de alta utilização da capacidade do sistema operacional e alta utilização da capacidade do usuário, concentre-se em resolver o problema do sistema operacional primeiro.
Em casos de alta utilização da capacidade do sistema operacional, o sistema pode ficar sem espaço para criar novos checkpoints.
O que causa a mensagem MSG_ERR_DISKFULL?
A causa mais comum é uma sobrecarga muito alta de checkpoint. Os fatores usuais de alta sobrecarga de checkpoint podem ser:
- A validação do checkpoint (hfscheck) falhou repetidas vezes.
- Uma falha de hfscheck pode ocorrer por diversas causas raiz (cancelamento abrupto, falha de software, entre outras).
- O sistema está funcionando com uma utilização de capacidade muito alta e apresenta uma taxa de alteração de dados diária elevada.
- O sistema precisa de mais nós de dados para lidar com a taxa de alteração de dados e armazenar os dados.
- O sistema está configurado para fazer backup de mais dados ou clients do que foi dimensionado para comportar.
- Muitos checkpoints estão sendo armazenados (o Avamar armazena dois checkpoints por padrão, um deles foi validado).
- O administrador do sistema criou checkpoints em excesso.
- A manutenção foi realizada recentemente, mas as retenções de checkpoint padrão não foram restabelecidas.
Consulte o artigo a seguir como ajuda para resolver o cenário MSG_ERR_DISKFULL: As tarefas de manutenção do Avamar falham com "MSG_ERR_DISKFULL" devido à utilização da capacidade de partição de dados do sistema operacional >89%.
Ações para investigar e ajudar a aliviar a alta utilização da capacidade do sistema operacional.
1. Determine quando o último hfscheck terminou. Para fazer isso, use o Avamar Administrator ou a linha de comando do Avamar Utility Node:
- No Avamar Administrator, acesse a guia Server > Checkpoint Management
- Verifique a data e a hora mais recentes, listadas na coluna Checkpoint Validation. Isso deve ter ocorrido nas últimas 24 horas.
- Utilizando a linha de comandos do Avamar Utility Node, execute o comando: cplist.
admin@utilitynode:~/>: cplist
cp.20110114111419 Fri Jan 14 11:14:19 2011 valid rol --- nodes 3/3 stripes 1131
cp.20110114194457 Fri Jan 14 19:44:57 2011 valid --- --- nodes 3/3 stripes 1131
Se os resultados mostrarem que o último checkpoint validado tem mais de 24 horas, descubra o motivo. Isso pode ocorrer porque o HFScheck não foi executado ou porque falhou.
2. Confirme se o HFScheck foi executado ou se falhou.
Por exemplo:
Last hfscheck: finished Sat Jan 15, 11:07:17 2011 after 06m 41s >> checked 528 of 528 stripes (OK)
.
admin@utilitynode:~/>: dpnctl status maint
Identity added: /home/admin/.ssh/dpnid (/home/admin/.ssh/admin_key)
dpnctl: INFO: Maintenance windows scheduler status: enabled.
- Se "maintenance windows scheduler" estiver com o status "down", "disabled" ou "suspended", ative-o com o comando: dpnctl start maint
- Como opção, use um novo checkpoint e execute o hfscheck ou aguarde até que a próxima janela de manutenção agendada seja concluída.
Assim que o hfscheck for concluído com êxito (após resolver quaisquer problemas ou reiniciar o agendador de manutenção), o checkpoint mais antigo será "removido" e a utilização da capacidade do sistema operacional deverá ser reduzida consideravelmente.
- Se a utilização da capacidade do sistema operacional ainda estiver muito alta e a coleta de lixo continuar falhando com a mensagem MSG_ERR_DISKFULL, procure a assistência do suporte técnico Dell.
- Caso contrário, se a utilização da capacidade do sistema operacional for baixa o suficiente para permitir que a coleta de lixo seja concluída, trabalhe para reduzir a utilização da "capacidade do usuário" e diminua a quantidade de "utilização do servidor".
Ações para aliviar a alta utilização da capacidade do usuário:
Diferentemente da capacidade do sistema operacional, os níveis de capacidade do usuário são influenciados com mais facilidade e de forma direta pelo administrador do sistema Avamar.
1. Certifique-se de que a coleta de lixo seja executada diariamente e que ela não seja interrompida por backups.
Esse é o ponto mais crucial, pois até mesmo um sistema de tamanho adequado atingirá rapidamente a alta utilização da capacidade do usuário se a coleta de lixo não for executada de forma regular ou confiável.
Conforme mostrado anteriormente, confirme se a janela de manutenção está ativada e use os scripts capacity.sh e sched.sh para verificar se a coleta de lixo está em execução e removendo dados.
Em versões do Avamar anteriores à v7.x, os backups não podiam ser executados durante a janela "restriction" da coleta de lixo.
O recurso Hash Referenced Bit Maps introduzido no Avamar v7.x permite que os backups ocorram durante a atividade de manutenção da coleta de lixo. Esse recurso requer que esses "mapas" tenham pelo menos 5 minutos de tempo "silencioso" por dia, durante os quais nenhum backup é executado para que eles possam ser redefinidos.
O conteúdo sobre esse recurso pode ser acessado pelo link para o artigo Avamar: A partir do Avamar v7, a coleta de lixo ignora alguns hashes, que não podem ser limpos quando os dados estão em uso por causa do "Hash Referenced Bit Maps".
2. Pare de adicionar novos clients à grade.
Quando uma grade do Avamar estiver se aproximando do limite de capacidade, devemos parar imediatamente de adicionar novos clients para evitar que a situação piore.
Se você tiver outra grade do Avamar em execução com um nível mais baixo de utilização do servidor, considere adicionar novos clients a ela, e não ao servidor que está ficando cheio.
3. Saiba quais clients estão consumindo mais espaço de armazenamento.
Para resolver um problema de capacidade, nós devemos identificar quais clients são responsáveis por adicionar a maioria dos dados ao sistema Avamar.
O script capacity.sh (executado a partir da linha de comando do Avamar Utility Node) também pode ser usado para identificar quais clients têm a taxa de alteração mais alta.
Os usuários Dell registrados podem acessar o conteúdo por meio do link para o artigo Avamar: Como gerenciar a capacidade com o script capacity.sh para obter mais detalhes sobre como usar o script capacity.sh.
Muitas vezes, os clients que "mais consomem" são aqueles que fazem backup de bancos de dados SQL ou de servidores de e-mail. Dessa forma, preste atenção a esses casos em particular.
4. Reavalie as políticas de retenção.
Depois de identificar clients com altas taxas de alteração, reavalie as políticas de retenção para verificar se alguma delas pode ser diminuída para reduzir os requisitos de armazenamento a um nível aceitável.
Se o sistema for antigo o suficiente para começar a expirar os backups retidos por mais tempo, depois de reduzir as políticas de retenção, esperamos ver um aumento na quantidade de dados removidos diariamente pela coleta de lixo. Monitore essa tendência com capacity.sh.
Se o sistema Avamar ainda não for antigo o suficiente para começar a expirar os backups, as políticas de retenção talvez precisem ser alteradas para que os backups mais antigos comecem, agora, a expirar.
Se não for possível reduzir as políticas de retenção devido a requisitos regulamentares, considere a expansão do sistema Avamar ou a migração de clients para outro sistema Avamar menos utilizado.
5. Migre clients para um sistema Avamar alternativo.
Se outro sistema Avamar estiver disponível, considere a possibilidade de migrar clients grandes ou com taxa de alteração alta, de sistemas mais usados para sistemas menos usados, usando a interface do gerenciador do Avamar Client.
- É preciso que o novo Avamar Server tenha espaço de armazenamento suficiente para os Avamar Clients que você deseja migrar.
- Mantenha os clients com tipos semelhantes de dados no mesmo sistema Avamar para aproveitar o bom desempenho da desduplicação.
- Essa estratégia é usada de forma melhor onde os sistemas Avamar ficam na mesma rede local.
6. Exclua backups antigos.
Se o nível de utilização da capacidade do usuário for grave (>90%), talvez seja necessário expirar backups antigos por meio da interface de gerenciamento de backups ou da ferramenta modify-snapups.
Os usuários Dell podem acessar o conteúdo pelo link para o artigo Gerenciamento de capacidade do Avamar: Como excluir ou expirar backups em massa com a ferramenta "modify-snapups"
A exclusão dos backups não reduz imediatamente o nível de utilização do servidor. O que a exclusão faz é permitir que a coleta de lixo comece a remover os dados na próxima vez em que for executada. A exclusão de backups antigos é uma solução temporária. Os backups serão substituídos nos próximos dias. Se os backups forem excluídos, também será indispensável ajustar as políticas de retenção.
7. Monitore a alteração de dados usando capacity.sh.
Depois que os backups forem excluídos e as políticas de retenção forem alteradas, monitore atentamente a quantidade de alterações de dados no sistema usando o script capacity.sh. Você deve começar a ver o valor de dados "Removed" aumentar, e o valor "Net Change" se tornar negativo. Eventualmente, à medida que os dados em excesso são apagados do sistema, o valor "removed" começa a retornar a níveis mais normais. Continue a monitorar o valor "Removed".
Se o valor "Net Change" não ficar negativo, verifique o log de coleta de lixo para ver por quanto tempo a coleta de lixo está sendo executada e a quantidade de trabalho que ela está realizado dentro das janelas de manutenção.
Os usuários Dell podem acessar o conteúdo pelo link para o artigo Avamar: Como gerenciar a capacidade com o script capacity.sh para obter mais detalhes sobre como usar o script capacity.sh.
8. Expandindo o sistema Avamar:
Muitas vezes, a alta utilização no sistema Avamar se deve ao crescimento de dados natural e esperado. Para continuar os backups de produção, é preciso disponibilizar mais espaço.
A forma como isso pode ser feito depende do tipo de sistema Avamar.
- Sistemas de único nó e sistemas Avamar Virtual Edition (AVE)
Eles não podem ser expandidos. Encomende um segundo sistema Avamar maior e peça para o Dell Professional Services realizar uma migração do sistema menor para o maior. O Professional Services pode ser engajado por meio do gerente de contas Dell.
O novo sistema pode ser um sistema de único nó, vários nós ou AVE, desde que ele forneça mais espaço de armazenamento do que o de origem.
- Sistemas de vários nós
Esses sistemas podem ser expandidos para até 16 nós de dados. Entre em contato com o gerente de contas Dell para obter detalhes. Os canais de suporte regulares não realizam adições de nós, portanto, um chamado não deve ser aberto para solicitar esse serviço.
- Integre o Data Domain
A integração de um sistema Data Domain como um dispositivo de armazenamento de back-end é uma maneira útil de expandir a capacidade disponível para clients que fazem backup no Avamar. Discuta as opções com seu gerente de contas Dell.
Additional Information
Ferramentas úteis
- status.dpn
- capacity.sh
- Avalanche
- Relatório de resumo do DPN
- replcnt.sh
- Avamar Client Manager
Práticas recomendadas:
-
Tente impedir que o valor de utilização do Avamar Server (capacidade do usuário) fique superior a 80%.
-
A menor utilização da capacidade do usuário oferece resiliência em relação às alterações inesperadas na quantidade de dados adicionados e pode proteger contra a inutilização do sistema em caso de falhas inusitadas ou problemas temporários com tarefas de manutenção.
-
Um sistema Avamar executado com uma utilização da capacidade do usuário superior a 80% exige que o administrador do sistema realize um monitoramento mais cuidadoso para garantir que as tarefas de manutenção sejam concluídas com êxito e que o sistema não se torne somente leitura.