Avamar: Checkpoint mislykkes med resultatet MSG_ERR_DDR_ERROR på grund af problemer med Data Domain-kapacitet
Summary: Data Domain (DD)-pladsforbruget i dataindsamling har overskredet tærsklen på 100 %, hvilket har fået Avamar-kontrolpunkter til at mislykkes med MSG_ERR_DDR_ERROR.
Symptoms
Både planlagte og manuelle kontrolpunkter fejler med MSG_ERR_DDR_ERROR.
F.eks.:
status.dpn
Mon Aug 19 13:33:53 WEST 2019 [AV-XXX] Mon Aug 19 12:33:53 2019 UTC (Initialized Wed Feb 11 12:42:51 2015 UTC)
Node IP Address Version State Runlevel Srvr+Root+User Dis Suspend Load UsedMB Errlen %Full Percent Full and Stripe Status by Disk
0.0 10.xxx.x.xx 19.1.0-38 ONLINE fullaccess mhpu+0hpu+0hpu 1 false 0.3 0 31802 52675327 11.8% 12%(onl:4148) 11%(onl:4133) 11%(onl:4135) 11%(onl:4140) 11%(onl:4138) 11%(onl:4147)
Srvr+Root+User Modes = migrate + hfswriteable + persistwriteable + useraccntwriteable
System ID: XXXXXXXX@00:1E:67:87:C4:6B
All reported states=(ONLINE), runlevels=(fullaccess), modes=(mhpu+0hpu+0hpu)
System-Status: ok
Access-Status: full
Checkpoint failed with result MSG_ERR_DDR_ERROR : cp.20190819054530 started Mon Aug 19 06:45:31 2019 ended Mon Aug 19 06:58:24 2019, completed 24840 of 24841 stripes
Last GC: finished Mon Aug 19 05:21:35 2019 after 20m 58s >> recovered 71.89 MB (MSG_ERR_DDR_ERROR)
Last hfscheck failed with result MSG_ERR_DDR_ERROR : started Mon Aug 19 05:34:23
Data Domain-loggen (/usr/local/avamar/var/ddrmaintlogs/ddrmaint.log) rapporterer en "I/O fejl":
grep -i Error /usr/local/avamar/var/ddrmaintlogs/ddrmaint.log|grep -v -i "Error not set"
Aug 19 05:15:50 av-XXX ddrmaint.bin[49665]: Error: <4710>Datadomain garbage collect operation failed.
Aug 19 05:34:18 av-XXX ddrmaint.bin[52434]: Warning: Calling DDR_CREATE_SNAPSHOT returned result code:5009 message:I/O error
Aug 19 05:34:18 av-XXX ddrmaint.bin[52434]: Error: cp-create::execute_create_checkpoint - Failed to create checkpoint for avamar-XXXXXXX to snapshot cp.20190819042140 on ddXXX, DDR result code: 5009, desc: I/O error
Aug 19 05:34:18 av-XXX ddrmaint.bin[52434]: Error: <4760>Datadomain checkpoint create operation failed.
Cause
Data Domain-området (DD) har nået sin kapacitet.
Dette kan bekræftes ved at gøre følgende:
1. Opret forbindelse til Data Domain. Brug Avamar: Sådan får du adgang til et Data Domain-system som reference efter behov.
2. Kontroller, om der er advarsler:
alerts show current
Id Post Time Severity Class Object Message
----- ------------------------ -------- ---------- ------------- ----------------------------------------------------------------------------
p0-87 Fri Aug 16 21:55:33 2019 CRITICAL Filesystem FilesysType=2 EVT-SPACE-00004: Space usage in Data Collection has exceeded 100% threshold.
----- ------------------------ -------- ---------- ------------- ----------------------------------------------------------------------------
There is 1 active alert.
3. Kør "df" kommando:
df
Active Tier:
Resource Size GiB Used GiB Avail GiB Use% Cleanable GiB*
---------------- -------- -------- --------- ---- --------------
/data: pre-comp - 15.1 - - -
/data: post-comp 30731.1 30608.8 122.3 100% 13.1
/ddvar 49.1 8.7 37.9 19% -
/ddvar/core 158.3 0.1 150.2 0% -
---------------- -------- -------- --------- ---- --------------
* Estimated based on last cleaning of 2019/07/15 06:04:40.
Cloud Tier
Resource Size GiB Used GiB Avail GiB Use% Cleanable GiB
---------------- -------- -------- --------- ---- -------------
/data: pre-comp - 19.0 - - -
/data: post-comp 33487.7* 20.4 33467.4 0% 0.0
---------------- -------- -------- --------- ---- -------------
* Post-comp size is based on CLOUDTIER-CAPACITY license and might not be same as the cloud storage.
Total:
Resource Size GiB Used GiB Avail GiB Use% Cleanable GiB
---------------- -------- -------- --------- ---- -------------
/data: pre-comp - 34.1 - - -
/data: post-comp 33829.9 36.4 33793.4 0% 0.0
/ddvar 49.1 8.7 37.9 19% -
/ddvar/core 158.3 0.1 150.2 0% -
---------------- -------- -------- --------- ---- -------------
Resolution
1. På Data Domain:
en. Kontroller status for rensning af filsystemet:
filesys clean status
Eksempler på output:
Rengøring kører ikke:
Cleaning finished at 2019/08/19 21:37:46
Rensning kører:
Cleaning started at 2019/08/19 06:00:02: phase 3 of 6 (pre-enumeration)
1.6% complete, 0 GiB free; time: phase 1:26:05, total 1:48:11
b. Hvis rensningen kører, skal du vente på, at den er fuldført, og derefter kontrollere kapaciteten ved hjælp af kommandoen df.
c. Hvis rensningen ikke kører, skal du kontrollere oprydningsplanen for filsystemet:
filesys clean show schedule
Eksempel på output:
Filesystem cleaning is scheduled to run "Tue" at "0700".
d. Hvis det er nødvendigt, skal du starte en manuel rensning af filsystemet og overvåge til færdiggørelse ved hjælp af "fileysys clean watch" kommando som angivet i outputtet nedenfor.
filesys clean start
Cleaning started. Use 'filesys clean watch' to monitor progress.
2. På Avamar:
en. Når kapacitetsproblemerne på Data Domain er løst, skal du udføre et manuelt kontrolpunkt:
mccli checkpoint create --override_maintenance_scheduler
b. Overvåg, indtil det er fuldført, og kontroller, at det lykkes.
c. Overvåg gitteret gennem det næste vedligeholdelsesvindue for at kontrollere, at alle Avamar-vedligeholdelsesopgaver (kontrolpunkt, validering af kontrolpunkt, (hfscheck) og affaldsindsamling fuldført med succes.