Avamar : RMCP ne supprime pas les points de contrôle
Summary: Cet article explique le comportement observé lorsque les points de contrôle ne sont pas supprimés d’Avamar, même après la validation réussie des points de contrôle.
Symptoms
Pendant les activités de maintenance, les points de contrôle ne sont pas supprimés. En outre, si Avamar est intégré à Data Domain, les snapshots n’expirent pas non plus.
admin@av-srv-prod:~/>: cplist --full
cp.20241021171415 Mon Oct 21 13:14:15 2024 valid --- del nodes 1/1 stripes 277
cp.20241022164600 Tue Oct 22 12:46:00 2024 valid rol del nodes 1/1 stripes 277
cp.20241022171838 Tue Oct 22 13:18:38 2024 valid --- del nodes 1/1 stripes 277
cp.20241022193333 Tue Oct 22 15:33:33 2024 valid rol del nodes 1/1 stripes 277
cp.20241024164621 Thu Oct 24 12:46:21 2024 valid rol --- nodes 1/1 stripes 277
cp.20241024171054 Thu Oct 24 13:10:54 2024 valid --- --- nodes 1/1 stripes 277
admin@av-srv-prod:~/>:
Plusieurs points de contrôle validés (vérification consécutive HFS) s’affichent comme « Failed » à l’aide de la commande mccli :
admin@av-srv-prod:~/>: mccli checkpoint show --verbose
0,23000,CLI command completed successfully.
Tag Time Validated Deletable Nodes Stripes Validation Start Time Validation Finished Time Errors
----------------- ----------------------- --------- --------- ----- ------- ----------------------- ------------------------ ------
cp.20241021171415 2024-10-21 13:14:15 EDT No 1 277 Not Validated Not Validated N/A
cp.20241022164600 2024-10-22 12:46:00 EDT Failed No 1 277 2024-10-22 12:53:44 EDT 2024-10-22 13:09:46 EDT 1
cp.20241022171838 2024-10-22 13:18:38 EDT No 1 277 Not Validated Not Validated N/A
cp.20241022193333 2024-10-22 15:33:33 EDT Failed No 1 277 2024-10-22 15:42:07 EDT 2024-10-22 15:56:48 EDT 1
cp.20241024164621 2024-10-24 12:46:21 EDT Failed No 1 277 2024-10-24 12:53:09 EDT 2024-10-24 13:08:04 EDT 1
cp.20241024171054 2024-10-24 13:10:54 EDT No 1 277 Not Validated Not Validated N/A
admin@av-srv-prod:~/>:
Lorsque la commande removed checkpoint (rmcp) est exécutée, aucun point de contrôle n’est supprimé.
admin@av-srv-prod:~/>: avmaint rmcp --full --ava
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<checkpointrmlist has-approved-checkpoint="false">
<checkpoint
tag="cp.20241021171415"
deleted="false"
ddr-deleted="false"/>
<checkpoint
tag="cp.20241022164600"
deleted="false"
ddr-deleted="false"/>
<checkpoint
tag="cp.20241022171838"
deleted="false"
ddr-deleted="false"/>
<checkpoint
tag="cp.20241022193333"
deleted="false"
ddr-deleted="false"/>
<checkpoint
tag="cp.20241024164621"
deleted="false"
ddr-deleted="false"/>
<checkpoint
tag="cp.20241024171054"
deleted="false"
ddr-deleted="false"/>
</checkpointrmlist>
Sur Data Domain, les snapshots n’expirent pas automatiquement. Ils doivent expirer manuellement :
avboost@dd-srv-prod# snapshot list mtree /data/col1/avamar-1234567890
Snapshot Information for MTree: /data/col1/avamar-1234567890
----------------------------------------------
Name Pre-Comp (GiB) Create Date Retain Until Status
----------------- -------------- ----------------- ----------------- -------
cp.20241015171741 69287.4 Oct 15 2024 13:19 Oct 22 2024 13:13 expired
cp.20241015194118 69287.4 Oct 15 2024 15:43 Oct 22 2024 13:13 expired
...
...
cp.20241020164654 65247.4 Oct 20 2024 12:49
cp.20241020171602 65262.9 Oct 20 2024 13:18
cp.20241021164757 65257.4 Oct 21 2024 12:50
cp.20241021171415 65272.9 Oct 21 2024 13:16
cp.20241022164600 65280.0 Oct 22 2024 12:48
----------------- -------------- ----------------- ----------------- -------
...
avboost@dd-srv-prod#
Une autre lenteur de l’exécution des commandes sur Avamar Server est un autre comportement observé. Bien que le serveur n’exécute aucune tâche ou sauvegarde, la moyenne de charge reste élevée.
Cause
Plusieurs facteurs peuvent être à l’origine de ce comportement. Tous les problèmes ont été identifiés après une analyse approfondie des processus (à l’aide de top ou ps -ef) en cours d’exécution sur l’instance d’Avamar Server. Voici quelques exemples de scénarios :
- Anciens processus Perl
- Réplication personnalisée obsolète
- Rapports personnalisés
- Anciens processus Avtar
Des preuves se trouvent dans certains scénarios :
admin 15007 0.0 0.0 9664 2812 ? Ss 2023 0:00 bash -c export TERM=${TERM:-dumb} ; /usr/bin/ssh-agent /tmp/dpnctl-run-self.14963.aux
admin 15042 0.0 0.0 9528 2192 ? S 2023 0:00 \_ /bin/bash /tmp/dpnctl-run-self.14963.aux
admin 15043 0.0 0.0 30792 680 ? Ss 2023 0:52 \_ /usr/bin/ssh-agent /tmp/dpnctl-run-self.14963.aux
admin 15049 99.6 0.1 81996 39340 ? R 2023 272656:21 \_ /usr/bin/perl /usr/local/avamar/bin/dpnctl --rerun --mcs_user=root stop
admin 26975 1 0 80 0 - 3440 - Oct08 ? 00:00:00 bash -c ./avReplication.40 --report --csv --quiet
admin 27290 25935 0 80 0 - 3440 - Oct08 ? 03:55:24 bash -c ./avReplication.40 --quiet --report --short-status
admin 27761 26975 0 80 0 - 3440 - Oct08 ? 03:50:39 bash -c ./avReplication.40 --report --csv --quiet
root 9046 0.0 0.0 314212 6792 ? SNl Nov08 0:00 /usr/local/avamar/bin/avtar.bin --vardir=/usr/local/avamar/var --bindir=/usr/local/avamar/bin --sysdir=/usr/local/avamar/etc --sysdir="/usr/l
root 20385 0.0 0.0 314212 6624 ? SNl Nov08 0:00 /usr/local/avamar/bin/avtar.bin --vardir=/usr/local/avamar/var --bindir=/usr/local/avamar/bin --sysdir=/usr/local/avamar/etc --sysdir="/usr/l
root 22784 0.0 0.0 314212 6544 ? SNl Nov08 0:00 /usr/local/avamar/bin/avtar.bin --vardir=/usr/local/avamar/var --bindir=/usr/local/avamar/bin --sysdir=/usr/local/avamar/etc --sysdir="/usr/l
Resolution
1. Connectez-vous à l’instance d’Avamar Server en tant que commutateur administrateur à la racine :
su -
2. Exécutez les commandes suivantes pour analyser en profondeur les processus :
top
ps -aux --forest
ps -ef
3. Une fois le processus identifié, terminez-le à l’aide de l’ID de processus (PID) :
kill <pid>
4. Si le processus ne s’arrête pas, forcez-le :
kill -9 <pid>
5. Les commandes devraient recommencer à fonctionner plus rapidement.
6. Exécutez RMCP :
avmaint rmcp --full --ava
7. Les deux commandes suivantes affichent à nouveau correctement le point de contrôle :
cplist --full
mccli checkpoint show --verbose
Exemple :
admin@av-srv-prod:~/>: cplist --full
cp.20241024164621 Thu Oct 24 12:46:21 2024 valid rol --- nodes 1/1 stripes 277
cp.20241024171054 Thu Oct 24 13:10:54 2024 valid --- --- nodes 1/1 stripes 277
admin@av-srv-prod:~/>:
admin@av-srv-prod:~/>: mccli checkpoint show --verbose
0,23000,CLI command completed successfully.
Tag Time Validated Deletable Nodes Stripes Validation Start Time Validation Finished Time Errors
----------------- ----------------------- --------- --------- ----- ------- ----------------------- ------------------------ ------
cp.20241024164621 2024-10-24 12:46:21 EDT Validated No 1 277 2024-10-24 12:53:09 EDT 2024-10-24 13:08:04 EDT 0
cp.20241024171054 2024-10-24 13:10:54 EDT No 1 277 Not Validated Not Validated N/A
admin@av-srv-prod:~/>:
8. Assurez-vous que les snapshots sur Data Domain affichent l’état « expiré ».