Avamar: Data Domain 용량 문제로 인해 결과 MSG_ERR_DDR_ERROR과 함께 체크포인트 실패
Summary: Data Collection의 DD(Data Domain) 공간 사용량이 100% 임계값을 초과하여 Avamar 체크포인트가 MSG_ERR_DDR_ERROR과 함께 실패합니다.
Symptoms
예약된 체크포인트와 수동 체크포인트가 모두 실패MSG_ERR_DDR_ERROR.
예:
status.dpn
Mon Aug 19 13:33:53 WEST 2019 [AV-XXX] Mon Aug 19 12:33:53 2019 UTC (Initialized Wed Feb 11 12:42:51 2015 UTC)
Node IP Address Version State Runlevel Srvr+Root+User Dis Suspend Load UsedMB Errlen %Full Percent Full and Stripe Status by Disk
0.0 10.xxx.x.xx 19.1.0-38 ONLINE fullaccess mhpu+0hpu+0hpu 1 false 0.3 0 31802 52675327 11.8% 12%(onl:4148) 11%(onl:4133) 11%(onl:4135) 11%(onl:4140) 11%(onl:4138) 11%(onl:4147)
Srvr+Root+User Modes = migrate + hfswriteable + persistwriteable + useraccntwriteable
System ID: XXXXXXXX@00:1E:67:87:C4:6B
All reported states=(ONLINE), runlevels=(fullaccess), modes=(mhpu+0hpu+0hpu)
System-Status: ok
Access-Status: full
Checkpoint failed with result MSG_ERR_DDR_ERROR : cp.20190819054530 started Mon Aug 19 06:45:31 2019 ended Mon Aug 19 06:58:24 2019, completed 24840 of 24841 stripes
Last GC: finished Mon Aug 19 05:21:35 2019 after 20m 58s >> recovered 71.89 MB (MSG_ERR_DDR_ERROR)
Last hfscheck failed with result MSG_ERR_DDR_ERROR : started Mon Aug 19 05:34:23
Data Domain 로그(/usr/local/avamar/var/ddrmaintlogs/ddrmaint.log)에서 "I/O 오류":
grep -i Error /usr/local/avamar/var/ddrmaintlogs/ddrmaint.log|grep -v -i "Error not set"
Aug 19 05:15:50 av-XXX ddrmaint.bin[49665]: Error: <4710>Datadomain garbage collect operation failed.
Aug 19 05:34:18 av-XXX ddrmaint.bin[52434]: Warning: Calling DDR_CREATE_SNAPSHOT returned result code:5009 message:I/O error
Aug 19 05:34:18 av-XXX ddrmaint.bin[52434]: Error: cp-create::execute_create_checkpoint - Failed to create checkpoint for avamar-XXXXXXX to snapshot cp.20190819042140 on ddXXX, DDR result code: 5009, desc: I/O error
Aug 19 05:34:18 av-XXX ddrmaint.bin[52434]: Error: <4760>Datadomain checkpoint create operation failed.
Cause
DD(Data Domain) 공간이 용량에 도달했습니다.
이는 다음을 수행하여 확인할 수 있습니다.
1. Data Domain에 연결합니다. Avamar 사용: 필요한 경우 Data Domain 시스템에 액세스하는 방법을 참조하십시오.
2. 알림이 있는지 확인합니다.
alerts show current
Id Post Time Severity Class Object Message
----- ------------------------ -------- ---------- ------------- ----------------------------------------------------------------------------
p0-87 Fri Aug 16 21:55:33 2019 CRITICAL Filesystem FilesysType=2 EVT-SPACE-00004: Space usage in Data Collection has exceeded 100% threshold.
----- ------------------------ -------- ---------- ------------- ----------------------------------------------------------------------------
There is 1 active alert.
3. 다음의 "df" 명령을 사용하여 수행됩니다.
df
Active Tier:
Resource Size GiB Used GiB Avail GiB Use% Cleanable GiB*
---------------- -------- -------- --------- ---- --------------
/data: pre-comp - 15.1 - - -
/data: post-comp 30731.1 30608.8 122.3 100% 13.1
/ddvar 49.1 8.7 37.9 19% -
/ddvar/core 158.3 0.1 150.2 0% -
---------------- -------- -------- --------- ---- --------------
* Estimated based on last cleaning of 2019/07/15 06:04:40.
Cloud Tier
Resource Size GiB Used GiB Avail GiB Use% Cleanable GiB
---------------- -------- -------- --------- ---- -------------
/data: pre-comp - 19.0 - - -
/data: post-comp 33487.7* 20.4 33467.4 0% 0.0
---------------- -------- -------- --------- ---- -------------
* Post-comp size is based on CLOUDTIER-CAPACITY license and might not be same as the cloud storage.
Total:
Resource Size GiB Used GiB Avail GiB Use% Cleanable GiB
---------------- -------- -------- --------- ---- -------------
/data: pre-comp - 34.1 - - -
/data: post-comp 33829.9 36.4 33793.4 0% 0.0
/ddvar 49.1 8.7 37.9 19% -
/ddvar/core 158.3 0.1 150.2 0% -
---------------- -------- -------- --------- ---- -------------
Resolution
1. On Data Domain:
a. 파일 시스템 정리 상태를 확인합니다.
filesys clean status
예제 출력:
정리가 실행되고 있지 않습니다.
Cleaning finished at 2019/08/19 21:37:46
정리가 실행 중입니다.
Cleaning started at 2019/08/19 06:00:02: phase 3 of 6 (pre-enumeration)
1.6% complete, 0 GiB free; time: phase 1:26:05, total 1:48:11
b. 정리가 실행 중인 경우 완료될 때까지 기다린 다음 df 명령을 사용하여 용량을 확인합니다.
c. 정리가 실행되고 있지 않은 경우 파일 시스템 정리 일정을 확인합니다.
filesys clean show schedule
예시 출력:
Filesystem cleaning is scheduled to run "Tue" at "0700".
d. 필요한 경우 수동 파일 시스템 정리를 시작하고 완료를 모니터링합니다.fileysys clean watch" 아래 출력에 표시된 명령을 사용합니다.
filesys clean start
Cleaning started. Use 'filesys clean watch' to monitor progress.
2. Avamar에서 다음을 수행합니다.
a. Data Domain의 용량 문제가 해결되면 수동 체크포인트를 수행합니다.
mccli checkpoint create --override_maintenance_scheduler
b. 완료될 때까지 모니터링하고 성공했는지 확인합니다.
c. 다음 유지 보수 기간을 통해 그리드를 모니터링하여 모든 Avamar 유지 보수 작업(체크포인트, 체크포인트 검증, (hfscheck) 가비지 수집이 성공적으로 완료되었습니다.