Avamar: Falha no checkpoint com MSG_ERR_DDR_ERROR de resultado devido a problemas de capacidade do Data Domain

Summary: O uso de espaço do Data Domain (DD) na coleta de dados excedeu o limite de 100%, fazendo com que os checkpoints do Avamar falhem com o MSG_ERR_DDR_ERROR.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Os checkpoints agendados e manuais estão falhando com MSG_ERR_DDR_ERROR.

Por exemplo:

status.dpn
Mon Aug 19 13:33:53 WEST 2019  [AV-XXX] Mon Aug 19 12:33:53 2019 UTC (Initialized Wed Feb 11 12:42:51 2015 UTC)
Node   IP Address     Version   State   Runlevel  Srvr+Root+User Dis Suspend Load UsedMB Errlen  %Full   Percent Full and Stripe Status by Disk
0.0     10.xxx.x.xx  19.1.0-38  ONLINE fullaccess mhpu+0hpu+0hpu   1 false   0.3 0 31802 52675327  11.8%  12%(onl:4148) 11%(onl:4133) 11%(onl:4135) 11%(onl:4140)  11%(onl:4138) 11%(onl:4147)
Srvr+Root+User Modes = migrate + hfswriteable + persistwriteable + useraccntwriteable

System ID: XXXXXXXX@00:1E:67:87:C4:6B

All reported states=(ONLINE), runlevels=(fullaccess), modes=(mhpu+0hpu+0hpu)
System-Status: ok
Access-Status: full

Checkpoint failed with result MSG_ERR_DDR_ERROR : cp.20190819054530 started Mon Aug 19 06:45:31 2019 ended Mon Aug 19 06:58:24 2019, completed 24840 of 24841 stripes
Last GC: finished Mon Aug 19 05:21:35 2019 after 20m 58s >> recovered 71.89 MB (MSG_ERR_DDR_ERROR)
Last hfscheck failed with result MSG_ERR_DDR_ERROR : started Mon Aug 19 05:34:23
Nota: Como visto no exemplo acima, isso pode não se limitar apenas a checkpoints.
 
 

O log do Data Domain (/usr/local/avamar/var/ddrmaintlogs/ddrmaint.log) relata um "I/O erro":

grep -i Error /usr/local/avamar/var/ddrmaintlogs/ddrmaint.log|grep -v -i "Error not set"
Aug 19 05:15:50 av-XXX ddrmaint.bin[49665]: Error: <4710>Datadomain garbage collect operation failed.
Aug 19 05:34:18 av-XXX ddrmaint.bin[52434]: Warning: Calling DDR_CREATE_SNAPSHOT returned result code:5009 message:I/O error
Aug 19 05:34:18 av-XXX ddrmaint.bin[52434]: Error: cp-create::execute_create_checkpoint - Failed to create checkpoint for avamar-XXXXXXX to snapshot cp.20190819042140 on ddXXX, DDR result code: 5009, desc: I/O error
Aug 19 05:34:18 av-XXX ddrmaint.bin[52434]: Error: <4760>Datadomain checkpoint create operation failed.

Cause

O espaço do Data Domain (DD) atingiu a capacidade.

Isso pode ser verificado fazendo o seguinte:

1. Conecte-se ao Data Domain. Use o Avamar: Como acessar um sistema Data Domain como referência, conforme necessário.

2. Verifique se há alertas:

alerts show current
Id      Post Time                  Severity   Class        Object          Message
-----   ------------------------   --------   ----------   -------------   ----------------------------------------------------------------------------
p0-87   Fri Aug 16 21:55:33 2019   CRITICAL   Filesystem   FilesysType=2   EVT-SPACE-00004: Space usage in Data Collection has exceeded 100% threshold.
-----   ------------------------   --------   ----------   -------------   ----------------------------------------------------------------------------
There is 1 active alert.
 

3. Execute o "df" comando:

df
Active Tier:
Resource           Size GiB   Used GiB   Avail GiB   Use%   Cleanable GiB*
----------------   --------   --------   ---------   ----   --------------
/data: pre-comp           -       15.1           -      -                -
/data: post-comp    30731.1    30608.8       122.3   100%             13.1
/ddvar                 49.1        8.7        37.9    19%                -
/ddvar/core           158.3        0.1       150.2     0%                -
----------------   --------   --------   ---------   ----   --------------
 * Estimated based on last cleaning of 2019/07/15 06:04:40.

Cloud Tier
Resource           Size GiB   Used GiB   Avail GiB   Use%   Cleanable GiB
----------------   --------   --------   ---------   ----   -------------
/data: pre-comp           -       19.0           -      -               -
/data: post-comp   33487.7*       20.4     33467.4     0%             0.0
----------------   --------   --------   ---------   ----   -------------
* Post-comp size is based on CLOUDTIER-CAPACITY license and might not be same as the cloud storage.

Total:
Resource           Size GiB   Used GiB   Avail GiB   Use%   Cleanable GiB
----------------   --------   --------   ---------   ----   -------------
/data: pre-comp           -       34.1           -      -               -
/data: post-comp    33829.9       36.4     33793.4     0%             0.0
/ddvar                 49.1        8.7        37.9    19%               -
/ddvar/core           158.3        0.1       150.2     0%               -
----------------   --------   --------   ---------   ----   -------------

Resolution

1. No Data Domain:

um. Verifique o status de limpeza do file system:

filesys clean status 
 

Exemplos de saídas:

A limpeza não está em execução:

Cleaning finished at 2019/08/19 21:37:46
 

A limpeza está em execução:

Cleaning started at 2019/08/19 06:00:02: phase 3 of 6 (pre-enumeration)
  1.6% complete,     0 GiB free; time: phase  1:26:05, total  1:48:11
 

b. Se a limpeza estiver em execução, aguarde até que ela seja concluída e, em seguida, verifique a capacidade usando o comando df.

c. Se a limpeza não estiver em execução, verifique o agendamento de limpeza do file system:

filesys clean show schedule
 

Exemplo de resultado:

Filesystem cleaning is scheduled to run "Tue" at "0700".
 

d. Se necessário, inicie uma limpeza manual do sistema de arquivos e monitore até a conclusão usando o "fileysys clean watch" conforme indicado na saída abaixo.

filesys clean start
Cleaning started.  Use 'filesys clean watch' to monitor progress.
 
Nota: Se o problema persistir após a limpeza do file system, envolva um engenheiro de file system do Data Domain para ajudar.
 
 

2. No Avamar:

um. Depois que os problemas de capacidade no Data Domain forem resolvidos, execute um checkpoint manual:

mccli checkpoint create --override_maintenance_scheduler
Nota: O comando mccli leva mais tempo para ser concluído, mas inclui um backup do MCS (Management Console Server) (também conhecido como flush).
 

b. Monitore até a conclusão e verifique se ela foi bem-sucedida.

c. Monitore a grade durante a próxima janela de manutenção para verificar se todas as tarefas de manutenção do Avamar (checkpoint, validação de checkpoint, (hfscheck) e a coleta de lixo foi concluída com sucesso.

Additional Information

Se o problema ocorrer após a limpeza do file system, o engenheiro do file system do Data Domain precisará ser acionado.

Affected Products

Avamar

Products

Avamar, Avamar Server
Article Properties
Article Number: 000046232
Article Type: Solution
Last Modified: 23 Jul 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.