Avamar: RMCP não remove checkpoints
Summary: Este artigo explica o comportamento observado quando os checkpoints não são removidos do Avamar, mesmo após a validação bem-sucedida do checkpoint.
Symptoms
Durante as atividades de manutenção, os checkpoints não estão sendo removidos. Além disso, se o Avamar estiver integrado ao Data Domain, os snapshots também não expiram.
admin@av-srv-prod:~/>: cplist --full
cp.20241021171415 Mon Oct 21 13:14:15 2024 valid --- del nodes 1/1 stripes 277
cp.20241022164600 Tue Oct 22 12:46:00 2024 valid rol del nodes 1/1 stripes 277
cp.20241022171838 Tue Oct 22 13:18:38 2024 valid --- del nodes 1/1 stripes 277
cp.20241022193333 Tue Oct 22 15:33:33 2024 valid rol del nodes 1/1 stripes 277
cp.20241024164621 Thu Oct 24 12:46:21 2024 valid rol --- nodes 1/1 stripes 277
cp.20241024171054 Thu Oct 24 13:10:54 2024 valid --- --- nodes 1/1 stripes 277
admin@av-srv-prod:~/>:
Vários checkpoints validados (verificação contínua de HFS) são exibidos como "Failed" usando o comando mccli:
admin@av-srv-prod:~/>: mccli checkpoint show --verbose
0,23000,CLI command completed successfully.
Tag Time Validated Deletable Nodes Stripes Validation Start Time Validation Finished Time Errors
----------------- ----------------------- --------- --------- ----- ------- ----------------------- ------------------------ ------
cp.20241021171415 2024-10-21 13:14:15 EDT No 1 277 Not Validated Not Validated N/A
cp.20241022164600 2024-10-22 12:46:00 EDT Failed No 1 277 2024-10-22 12:53:44 EDT 2024-10-22 13:09:46 EDT 1
cp.20241022171838 2024-10-22 13:18:38 EDT No 1 277 Not Validated Not Validated N/A
cp.20241022193333 2024-10-22 15:33:33 EDT Failed No 1 277 2024-10-22 15:42:07 EDT 2024-10-22 15:56:48 EDT 1
cp.20241024164621 2024-10-24 12:46:21 EDT Failed No 1 277 2024-10-24 12:53:09 EDT 2024-10-24 13:08:04 EDT 1
cp.20241024171054 2024-10-24 13:10:54 EDT No 1 277 Not Validated Not Validated N/A
admin@av-srv-prod:~/>:
Quando o comando de checkpoint removido (rmcp) é executado, nenhum checkpoint é removido.
admin@av-srv-prod:~/>: avmaint rmcp --full --ava
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<checkpointrmlist has-approved-checkpoint="false">
<checkpoint
tag="cp.20241021171415"
deleted="false"
ddr-deleted="false"/>
<checkpoint
tag="cp.20241022164600"
deleted="false"
ddr-deleted="false"/>
<checkpoint
tag="cp.20241022171838"
deleted="false"
ddr-deleted="false"/>
<checkpoint
tag="cp.20241022193333"
deleted="false"
ddr-deleted="false"/>
<checkpoint
tag="cp.20241024164621"
deleted="false"
ddr-deleted="false"/>
<checkpoint
tag="cp.20241024171054"
deleted="false"
ddr-deleted="false"/>
</checkpointrmlist>
No Data Domain, os snapshots não expiram automaticamente. Eles devem ser expirados manualmente:
avboost@dd-srv-prod# snapshot list mtree /data/col1/avamar-1234567890
Snapshot Information for MTree: /data/col1/avamar-1234567890
----------------------------------------------
Name Pre-Comp (GiB) Create Date Retain Until Status
----------------- -------------- ----------------- ----------------- -------
cp.20241015171741 69287.4 Oct 15 2024 13:19 Oct 22 2024 13:13 expired
cp.20241015194118 69287.4 Oct 15 2024 15:43 Oct 22 2024 13:13 expired
...
...
cp.20241020164654 65247.4 Oct 20 2024 12:49
cp.20241020171602 65262.9 Oct 20 2024 13:18
cp.20241021164757 65257.4 Oct 21 2024 12:50
cp.20241021171415 65272.9 Oct 21 2024 13:16
cp.20241022164600 65280.0 Oct 22 2024 12:48
----------------- -------------- ----------------- ----------------- -------
...
avboost@dd-srv-prod#
Outro comportamento observado é a lentidão ao executar comandos no Avamar Server. Apesar de o servidor não executar nenhuma tarefa ou backup, a média de carga permanece alta.
Cause
Vários fatores podem causar esse comportamento. Todos os problemas foram identificados após uma análise minuciosa dos processos (usando top ou ps -ef) em execução no Avamar Server. Alguns cenários incluem:
- Processos Perl antigos
- Replicação personalizada desatualizada
- Relatórios personalizados
- Processos antigos da Avtar
Evidências são encontradas em alguns cenários:
admin 15007 0.0 0.0 9664 2812 ? Ss 2023 0:00 bash -c export TERM=${TERM:-dumb} ; /usr/bin/ssh-agent /tmp/dpnctl-run-self.14963.aux
admin 15042 0.0 0.0 9528 2192 ? S 2023 0:00 \_ /bin/bash /tmp/dpnctl-run-self.14963.aux
admin 15043 0.0 0.0 30792 680 ? Ss 2023 0:52 \_ /usr/bin/ssh-agent /tmp/dpnctl-run-self.14963.aux
admin 15049 99.6 0.1 81996 39340 ? R 2023 272656:21 \_ /usr/bin/perl /usr/local/avamar/bin/dpnctl --rerun --mcs_user=root stop
admin 26975 1 0 80 0 - 3440 - Oct08 ? 00:00:00 bash -c ./avReplication.40 --report --csv --quiet
admin 27290 25935 0 80 0 - 3440 - Oct08 ? 03:55:24 bash -c ./avReplication.40 --quiet --report --short-status
admin 27761 26975 0 80 0 - 3440 - Oct08 ? 03:50:39 bash -c ./avReplication.40 --report --csv --quiet
root 9046 0.0 0.0 314212 6792 ? SNl Nov08 0:00 /usr/local/avamar/bin/avtar.bin --vardir=/usr/local/avamar/var --bindir=/usr/local/avamar/bin --sysdir=/usr/local/avamar/etc --sysdir="/usr/l
root 20385 0.0 0.0 314212 6624 ? SNl Nov08 0:00 /usr/local/avamar/bin/avtar.bin --vardir=/usr/local/avamar/var --bindir=/usr/local/avamar/bin --sysdir=/usr/local/avamar/etc --sysdir="/usr/l
root 22784 0.0 0.0 314212 6544 ? SNl Nov08 0:00 /usr/local/avamar/bin/avtar.bin --vardir=/usr/local/avamar/var --bindir=/usr/local/avamar/bin --sysdir=/usr/local/avamar/etc --sysdir="/usr/l
Resolution
1. Faça log-in no Avamar Server como um switch de administrador para o root:
su -
2. Execute os seguintes comandos para analisar minuciosamente os processos:
top
ps -aux --forest
ps -ef
3. Depois que o processo for identificado, encerre-o usando o ID do processo (PID):
kill <pid>
4. Se o processo não for encerrado, force-o:
kill -9 <pid>
5. Os comandos devem começar a funcionar mais rápido novamente.
6. Execute RMCP:
avmaint rmcp --full --ava
7. Os dois comandos a seguir mostram o checkpoint corretamente novamente:
cplist --full
mccli checkpoint show --verbose
Exemplo:
admin@av-srv-prod:~/>: cplist --full
cp.20241024164621 Thu Oct 24 12:46:21 2024 valid rol --- nodes 1/1 stripes 277
cp.20241024171054 Thu Oct 24 13:10:54 2024 valid --- --- nodes 1/1 stripes 277
admin@av-srv-prod:~/>:
admin@av-srv-prod:~/>: mccli checkpoint show --verbose
0,23000,CLI command completed successfully.
Tag Time Validated Deletable Nodes Stripes Validation Start Time Validation Finished Time Errors
----------------- ----------------------- --------- --------- ----- ------- ----------------------- ------------------------ ------
cp.20241024164621 2024-10-24 12:46:21 EDT Validated No 1 277 2024-10-24 12:53:09 EDT 2024-10-24 13:08:04 EDT 0
cp.20241024171054 2024-10-24 13:10:54 EDT No 1 277 Not Validated Not Validated N/A
admin@av-srv-prod:~/>:
8. Certifique-se de que os snapshots no Data Domain mostrem o status "expirado".