Avamar:Data Domainの容量の問題により、チェックポイントが失敗し、結果がMSG_ERR_DDR_ERRORされる
Summary: データ コレクションのData Domain (DD)領域の使用率が100%の閾値を超えたため、AvamarチェックポイントがMSG_ERR_DDR_ERRORで失敗します。
Symptoms
スケジュール設定されたチェックポイントと手動チェックポイントの両方がMSG_ERR_DDR_ERRORで失敗しています。
例:
status.dpn
Mon Aug 19 13:33:53 WEST 2019 [AV-XXX] Mon Aug 19 12:33:53 2019 UTC (Initialized Wed Feb 11 12:42:51 2015 UTC)
Node IP Address Version State Runlevel Srvr+Root+User Dis Suspend Load UsedMB Errlen %Full Percent Full and Stripe Status by Disk
0.0 10.xxx.x.xx 19.1.0-38 ONLINE fullaccess mhpu+0hpu+0hpu 1 false 0.3 0 31802 52675327 11.8% 12%(onl:4148) 11%(onl:4133) 11%(onl:4135) 11%(onl:4140) 11%(onl:4138) 11%(onl:4147)
Srvr+Root+User Modes = migrate + hfswriteable + persistwriteable + useraccntwriteable
System ID: XXXXXXXX@00:1E:67:87:C4:6B
All reported states=(ONLINE), runlevels=(fullaccess), modes=(mhpu+0hpu+0hpu)
System-Status: ok
Access-Status: full
Checkpoint failed with result MSG_ERR_DDR_ERROR : cp.20190819054530 started Mon Aug 19 06:45:31 2019 ended Mon Aug 19 06:58:24 2019, completed 24840 of 24841 stripes
Last GC: finished Mon Aug 19 05:21:35 2019 after 20m 58s >> recovered 71.89 MB (MSG_ERR_DDR_ERROR)
Last hfscheck failed with result MSG_ERR_DDR_ERROR : started Mon Aug 19 05:34:23
Data Domainログ(/usr/local/avamar/var/ddrmaintlogs/ddrmaint.log)に「I/O エラー":
grep -i Error /usr/local/avamar/var/ddrmaintlogs/ddrmaint.log|grep -v -i "Error not set"
Aug 19 05:15:50 av-XXX ddrmaint.bin[49665]: Error: <4710>Datadomain garbage collect operation failed.
Aug 19 05:34:18 av-XXX ddrmaint.bin[52434]: Warning: Calling DDR_CREATE_SNAPSHOT returned result code:5009 message:I/O error
Aug 19 05:34:18 av-XXX ddrmaint.bin[52434]: Error: cp-create::execute_create_checkpoint - Failed to create checkpoint for avamar-XXXXXXX to snapshot cp.20190819042140 on ddXXX, DDR result code: 5009, desc: I/O error
Aug 19 05:34:18 av-XXX ddrmaint.bin[52434]: Error: <4760>Datadomain checkpoint create operation failed.
Cause
Data Domain (DD)スペースが容量に達しました。
これは、次の手順で確認できます。
1.Data Domainに接続します。Avamarを使用: Data Domainシステムにアクセスする方法」を参照してください(必要な場合)。
2.アラートを確認します。
alerts show current
Id Post Time Severity Class Object Message
----- ------------------------ -------- ---------- ------------- ----------------------------------------------------------------------------
p0-87 Fri Aug 16 21:55:33 2019 CRITICAL Filesystem FilesysType=2 EVT-SPACE-00004: Space usage in Data Collection has exceeded 100% threshold.
----- ------------------------ -------- ---------- ------------- ----------------------------------------------------------------------------
There is 1 active alert.
3.次のコマンド: "df" コマンドを使用して実行できます。
df
Active Tier:
Resource Size GiB Used GiB Avail GiB Use% Cleanable GiB*
---------------- -------- -------- --------- ---- --------------
/data: pre-comp - 15.1 - - -
/data: post-comp 30731.1 30608.8 122.3 100% 13.1
/ddvar 49.1 8.7 37.9 19% -
/ddvar/core 158.3 0.1 150.2 0% -
---------------- -------- -------- --------- ---- --------------
* Estimated based on last cleaning of 2019/07/15 06:04:40.
Cloud Tier
Resource Size GiB Used GiB Avail GiB Use% Cleanable GiB
---------------- -------- -------- --------- ---- -------------
/data: pre-comp - 19.0 - - -
/data: post-comp 33487.7* 20.4 33467.4 0% 0.0
---------------- -------- -------- --------- ---- -------------
* Post-comp size is based on CLOUDTIER-CAPACITY license and might not be same as the cloud storage.
Total:
Resource Size GiB Used GiB Avail GiB Use% Cleanable GiB
---------------- -------- -------- --------- ---- -------------
/data: pre-comp - 34.1 - - -
/data: post-comp 33829.9 36.4 33793.4 0% 0.0
/ddvar 49.1 8.7 37.9 19% -
/ddvar/core 158.3 0.1 150.2 0% -
---------------- -------- -------- --------- ---- -------------
Resolution
1.Data Domainの場合:
ある。ファイル システムのクリーニング ステータスを確認します。
filesys clean status
出力例:
クリーニングが実行されていません。
Cleaning finished at 2019/08/19 21:37:46
クリーニングが実行されています:
Cleaning started at 2019/08/19 06:00:02: phase 3 of 6 (pre-enumeration)
1.6% complete, 0 GiB free; time: phase 1:26:05, total 1:48:11
b.クリーニングが実行されている場合は、クリーニングが完了するのを待ってから、dfコマンドを使用して容量を確認します。
c. クリーニングが実行されていない場合は、ファイル システムのクリーニング スケジュールを確認します。
filesys clean show schedule
出力例:
Filesystem cleaning is scheduled to run "Tue" at "0700".
d. 必要に応じて、ファイル システムの手動クリーニングを開始し、「fileysys clean watch" コマンドを以下の出力に示すように変更します。
filesys clean start
Cleaning started. Use 'filesys clean watch' to monitor progress.
2.Avamarの場合:
ある。Data Domainの容量の問題が解決したら、手動チェックポイントを実行します。
mccli checkpoint create --override_maintenance_scheduler
b.完了するまで監視し、成功したことを確認します。
c. 次のメンテナンス ウィンドウまでグリッドを監視して、すべてのAvamarメンテナンス タスク(チェックポイント、チェックポイント検証、 (hfscheck) ガベージ コレクションが正常に完了しました。