Avamar : Le point de contrôle échoue avec le résultat MSG_ERR_DDR_ERROR en raison de problèmes de capacité Data Domain
Summary: L’utilisation de l’espace Data Domain (DD) dans la collecte de données a dépassé le seuil de 100 %, ce qui entraîne l’échec des points de contrôle Avamar avec MSG_ERR_DDR_ERROR.
Symptoms
Les points de contrôle planifiés et manuels échouent avec MSG_ERR_DDR_ERROR.
Par exemple :
status.dpn
Mon Aug 19 13:33:53 WEST 2019 [AV-XXX] Mon Aug 19 12:33:53 2019 UTC (Initialized Wed Feb 11 12:42:51 2015 UTC)
Node IP Address Version State Runlevel Srvr+Root+User Dis Suspend Load UsedMB Errlen %Full Percent Full and Stripe Status by Disk
0.0 10.xxx.x.xx 19.1.0-38 ONLINE fullaccess mhpu+0hpu+0hpu 1 false 0.3 0 31802 52675327 11.8% 12%(onl:4148) 11%(onl:4133) 11%(onl:4135) 11%(onl:4140) 11%(onl:4138) 11%(onl:4147)
Srvr+Root+User Modes = migrate + hfswriteable + persistwriteable + useraccntwriteable
System ID: XXXXXXXX@00:1E:67:87:C4:6B
All reported states=(ONLINE), runlevels=(fullaccess), modes=(mhpu+0hpu+0hpu)
System-Status: ok
Access-Status: full
Checkpoint failed with result MSG_ERR_DDR_ERROR : cp.20190819054530 started Mon Aug 19 06:45:31 2019 ended Mon Aug 19 06:58:24 2019, completed 24840 of 24841 stripes
Last GC: finished Mon Aug 19 05:21:35 2019 after 20m 58s >> recovered 71.89 MB (MSG_ERR_DDR_ERROR)
Last hfscheck failed with result MSG_ERR_DDR_ERROR : started Mon Aug 19 05:34:23
Le log Data Domain (/usr/local/avamar/var/ddrmaintlogs/ddrmaint.log) signale un «I/O error" :
grep -i Error /usr/local/avamar/var/ddrmaintlogs/ddrmaint.log|grep -v -i "Error not set"
Aug 19 05:15:50 av-XXX ddrmaint.bin[49665]: Error: <4710>Datadomain garbage collect operation failed.
Aug 19 05:34:18 av-XXX ddrmaint.bin[52434]: Warning: Calling DDR_CREATE_SNAPSHOT returned result code:5009 message:I/O error
Aug 19 05:34:18 av-XXX ddrmaint.bin[52434]: Error: cp-create::execute_create_checkpoint - Failed to create checkpoint for avamar-XXXXXXX to snapshot cp.20190819042140 on ddXXX, DDR result code: 5009, desc: I/O error
Aug 19 05:34:18 av-XXX ddrmaint.bin[52434]: Error: <4760>Datadomain checkpoint create operation failed.
Cause
L’espace Data Domain (DD) a atteint sa capacité maximale.
Pour le vérifier, procédez comme suit :
1. Connectez-vous au système Data Domain. Utilisez Avamar : Accès à un système Data Domain comme référence, si nécessaire.
2. Recherchez les alertes :
alerts show current
Id Post Time Severity Class Object Message
----- ------------------------ -------- ---------- ------------- ----------------------------------------------------------------------------
p0-87 Fri Aug 16 21:55:33 2019 CRITICAL Filesystem FilesysType=2 EVT-SPACE-00004: Space usage in Data Collection has exceeded 100% threshold.
----- ------------------------ -------- ---------- ------------- ----------------------------------------------------------------------------
There is 1 active alert.
3. Exécutez la commande "df" WMIC suivante :
df
Active Tier:
Resource Size GiB Used GiB Avail GiB Use% Cleanable GiB*
---------------- -------- -------- --------- ---- --------------
/data: pre-comp - 15.1 - - -
/data: post-comp 30731.1 30608.8 122.3 100% 13.1
/ddvar 49.1 8.7 37.9 19% -
/ddvar/core 158.3 0.1 150.2 0% -
---------------- -------- -------- --------- ---- --------------
* Estimated based on last cleaning of 2019/07/15 06:04:40.
Cloud Tier
Resource Size GiB Used GiB Avail GiB Use% Cleanable GiB
---------------- -------- -------- --------- ---- -------------
/data: pre-comp - 19.0 - - -
/data: post-comp 33487.7* 20.4 33467.4 0% 0.0
---------------- -------- -------- --------- ---- -------------
* Post-comp size is based on CLOUDTIER-CAPACITY license and might not be same as the cloud storage.
Total:
Resource Size GiB Used GiB Avail GiB Use% Cleanable GiB
---------------- -------- -------- --------- ---- -------------
/data: pre-comp - 34.1 - - -
/data: post-comp 33829.9 36.4 33793.4 0% 0.0
/ddvar 49.1 8.7 37.9 19% -
/ddvar/core 158.3 0.1 150.2 0% -
---------------- -------- -------- --------- ---- -------------
Resolution
1. Sur Data Domain :
un. Vérifiez l’état du nettoyage du système de fichiers :
filesys clean status
Exemples de sorties :
Le nettoyage n’est pas en cours :
Cleaning finished at 2019/08/19 21:37:46
Le nettoyage est en cours :
Cleaning started at 2019/08/19 06:00:02: phase 3 of 6 (pre-enumeration)
1.6% complete, 0 GiB free; time: phase 1:26:05, total 1:48:11
b. Si le nettoyage est en cours, attendez qu’il se termine, puis vérifiez la capacité à l’aide de la commande df.
c. Si le nettoyage n’est pas en cours d’exécution, vérifiez le planning de nettoyage du système de fichiers :
filesys clean show schedule
Exemple de résultat :
Filesystem cleaning is scheduled to run "Tue" at "0700".
d. Si nécessaire, démarrez un nettoyage manuel du système de fichiers et surveillez-le jusqu’à la fin à l’aide de la commande «fileysys clean watch" comme indiqué dans la sortie ci-dessous.
filesys clean start
Cleaning started. Use 'filesys clean watch' to monitor progress.
2. Sur Avamar :
un. Une fois les problèmes de capacité sur Data Domain résolus, effectuez un point de contrôle manuel :
mccli checkpoint create --override_maintenance_scheduler
b. Surveillez l’exécution jusqu’à la fin et vérifiez qu’elle a abouti.
c. Surveillez la grille pendant la fenêtre de maintenance suivante pour vérifier que toutes les tâches de maintenance d’Avamar (point de contrôle, validation de point de contrôle, (hfscheck) et le nettoyage de la mémoire s’est terminé avec succès.