Avamar: Etapas para validar falhas de coleta de lixo no Avamar
Summary: Veja abaixo as etapas para validar falhas de coleta de lixo (GC) no Avamar.
Symptoms
O que é uma coleta de lixo?
A coleta de lixo (GC) é o processo de exclusão de partes não utilizadas de backups que expiraram. Isso libera capacidade no Avamar Server.
Por padrão, a coleta de lixo é executada uma vez por dia, começando no início da janela de manutenção.
Sintomas comuns de falha:
MSG_ERR_DDR_ERRORMSG_ERR_DISKFULLMSG_ERR_MISCMSG_ERR_TRYAGAINLATERMSG_ERR_BADTIMESYNC
Cause
Causas comuns de falhas de GC:
MSG_ERR_DDR_ERROR
- Há muitos problemas subjacentes que podem fazer com que a GC falhe com
MSG_ERR_DDR_ERROR. Alguns desses motivos incluem:- Erros de rede ou conectividade
- Problemas com o file system do Data Domain
- O equipamento Data Domain fica cheio
- Uma senha de usuário expirada ou incorreta do DD Boost
- Há muitos checkpoints (Avamar) ou snapshots (Data Domain). Isso geralmente é associado a
hfscheckFalhas que não permitem que checkpoints e snapshots antigos sejam "rolados".
MSG_ERR_MISC ou MSG_ERR_TRYAGAINLATER
- No Avamar v.7, os backups podem ser executados simultaneamente com a coleta de lixo.
- Ocasionalmente, um processo chamado "Index Stripe Splitting" ocorre à medida que novos dados são adicionados a partir dos backups.
- Como esse processo de "divisão de faixas de índice" não pode ser executado durante a coleta de lixo, um dos erros acima é relatado.
- As faixas de índice em uma grade tendem a se dividir em torno do mesmo período de tempo que as outras nos vários nós.
- Às vezes, isso pode levar alguns dias para ser concluído.
- O Avamar está funcionando conforme projetado. A solução temporária é não executar backups durante a GC.
MSG_ERR_BADTIMESYNC
- Esse é um problema raro e visto apenas em grades de vários nós. O erro ocorre quando a hora não é sincronizada entre um ou mais nós de dados do Avamar e o nó do utilitário.
- É provável que todas as tarefas de manutenção (GC, checkpoint e
hfscheck)estão relatando o mesmo erro.
Resolution
Determinando o status da coleta de lixo mais recente:
As informações sobre a coleta de lixo mais recente podem ser visualizadas usando a CLI, a AUI ou a interface do usuário do MCS (Management Console Server).
Na CLI:

- Abra uma sessão SSH (por exemplo, putty) no Avamar Server e faça log-in como "admin". Execute os seguintes comandos:
status.dpn avmaint gcstatus
- Os exemplos a seguir mostram uma coleta de lixo bem-sucedida:
Last GC: finished Tue Jul 9 00:00:23 2024 after 00m 03s >> recovered 199.88 KB (OK) Last GC: finished Wed Jun 5 09:20:46 2024 after 00m 12s >> recovered 0.00 KB (OK)
- Se o status mostrar qualquer coisa diferente de (OK), há um possível problema com a coleta de lixo:
Last GC: finished Mon Jun 17 09:02:41 2024 after 01m 51s >> recovered 14.98 MB (MSG_ERR_DDR_ERROR) Last GC: finished Thu Jun 13 07:06:54 2024 after 03m 41s >> recovered 0.00 KB (MSG_ERR_DISKFULL) Last GC: finished Mon Jun 10 19:04:58 2024 after 01m 01s >> recovered 0 KB (MSG_ERR_MISC) Last GC: finished Thu Jun 16:21:12 2024 after 00m 25s >> recovered 0 KB (MSG_ERR_BADTIMESYNC)
A partir da AUI:
- Analise o "Status da última coleta de lixo". Se o status mostrar algo diferente de (OK), há um possível problema com a coleta de lixo.
Na interface do usuário do MCS:
- Se a opção "Última coleta de lixo" tiver um "x" vermelho , como exibido acima, há um possível problema com a coleta de lixo e é necessário fazer uma análise adicional.
Se a coleta de lixo continuar falhando devido a um problema real (conforme validado usando as etapas acima), selecione as opções apropriadas no Formulário de resposta de alerta para transferir o chamado a um agente de suporte.
Additional Information
Confirmando erros depois que o problema for resolvido:
Na CLI:
- Localize os eventos não confirmados executando:
mccli event show --unack
- Confirme o código único digitando o ID exclusivo ou todos os códigos de erro:
mccli event show --id-

A partir da AUI:
- Faça login na AUI e visualize o painel de indicadores:
- Clique no ponto de exclamação e a tela mostrará algo semelhante ao seguinte:
- Clique em Unacknowledged events e a tela mostrará algo semelhante ao seguinte:
- Selecione o evento (conforme mostrado acima) e clique em Acknowledge.
Determinar por quanto tempo o GC está falhando:
A maneira mais fácil de determinar por quanto tempo a GC está falhando é usar a CLI (embora essas informações também estejam disponíveis na interface do usuário da AUI e do MCS)
O comando a seguir mostra todas as falhas de coleta de lixo dos últimos 30 dias:
dumpmaintlogs --types=gc --days=30 |grep "failed garbage collection"
2024/05/27-16:32:18.55893 {0.0} <4202> failed garbage collection with error MSG_ERR_DDR_ERROR
2024/05/28-16:32:37.92920 {0.0} <4202> failed garbage collection with error MSG_ERR_DDR_ERROR
2024/05/29-16:31:51.62962 {0.0} <4202> failed garbage collection with error MSG_ERR_DDR_ERROR
2024/05/30-16:31:55.18969 {0.0} <4202> failed garbage collection with error MSG_ERR_DDR_ERROR
2024/06/20-01:19:09.97961 {0.0} <4202> failed garbage collection with error MSG_ERR_DDR_ERROR
