Avamar: Pasos para validar fallas de recolección de elementos no utilizados en Avamar
Summary: A continuación, se indican los pasos para validar las fallas de recolección de elementos no utilizados (GC) en Avamar.
Symptoms
¿Qué es la recolección de elementos no utilizados?
La recolección de elementos no utilizados (GC) es el proceso de eliminar fragmentos no utilizados de respaldos que vencieron. Esto libera capacidad en el servidor Avamar.
De manera predeterminada, la recolección de elementos no utilizados se ejecuta una vez al día a partir del comienzo de la ventana Maintenance.
Síntomas comunes de falla:
MSG_ERR_DDR_ERRORMSG_ERR_DISKFULLMSG_ERR_MISCMSG_ERR_TRYAGAINLATERMSG_ERR_BADTIMESYNC
Cause
Causas comunes de fallas de GC:
MSG_ERR_DDR_ERROR
- Hay muchos problemas subyacentes que pueden hacer que GC falle con
MSG_ERR_DDR_ERROR. Algunas de estas razones incluyen:- Errores de red o conectividad
- Problemas con el sistema de archivos de Data Domain
- El dispositivo Data Domain se llena
- Una contraseña de usuario de DD Boost vencida o incorrecta
- Hay demasiados puntos de control (Avamar) o instantáneas (Data Domain). Por lo general, esto se combina con
hfscheckFallas que no permiten que los puntos de control y las instantáneas antiguos se "desplacen".
MSG_ERR_MISC o MSG_ERR_TRYAGAINLATER
- Desde Avamar v.7, los respaldos se pueden ejecutar simultáneamente con la recolección de elementos no utilizados.
- En ocasiones, se produce un proceso llamado "división de la sección de índice" a medida que se agregan nuevos datos desde los respaldos.
- Dado que este proceso de "división de secciones de índice" no se puede ejecutar mientras se ejecuta la recolección de elementos no utilizados, se informa uno de los errores anteriores.
- Las franjas de índice en una cuadrícula tienden a dividirse aproximadamente en el mismo período entre sí en los distintos nodos.
- A veces, esto puede tardar unos días en completarse.
- Avamar está funcionando según lo previsto. La solución alternativa es no ejecutar respaldos durante GC.
MSG_ERR_BADTIMESYNC
- Este es un problema poco frecuente y solo se ve en cuadrículas de múltiples nodos. El error se produce cuando la hora no está sincronizada entre uno o más nodos de datos de Avamar y el nodo de utilidad.
- Es probable que todas las tareas de mantenimiento (GC, punto de control y
hfscheck)informan el mismo error.
Resolution
Determinación del estado de recolección de elementos no utilizados más reciente:
La información sobre la recolección de elementos no utilizados más reciente se puede ver mediante la CLI, la AUI o la IU del servidor de consola de administración (MCS).
Desde la CLI:

- Abra una sesión SSH (por ejemplo, putty) en Avamar Server e inicie sesión como "admin". Ejecute los siguientes comandos:
status.dpn avmaint gcstatus
- En los siguientes ejemplos, se muestra una recolección de elementos no utilizados correcta:
Last GC: finished Tue Jul 9 00:00:23 2024 after 00m 03s >> recovered 199.88 KB (OK) Last GC: finished Wed Jun 5 09:20:46 2024 after 00m 12s >> recovered 0.00 KB (OK)
- Si el estado no es (OK), es posible que haya un problema con la recolección de elementos no utilizados:
Last GC: finished Mon Jun 17 09:02:41 2024 after 01m 51s >> recovered 14.98 MB (MSG_ERR_DDR_ERROR) Last GC: finished Thu Jun 13 07:06:54 2024 after 03m 41s >> recovered 0.00 KB (MSG_ERR_DISKFULL) Last GC: finished Mon Jun 10 19:04:58 2024 after 01m 01s >> recovered 0 KB (MSG_ERR_MISC) Last GC: finished Thu Jun 16:21:12 2024 after 00m 25s >> recovered 0 KB (MSG_ERR_BADTIMESYNC)
Desde la AUI:
- Revise el "Estado de la última recolección de elementos no utilizados". Si el estado no es (OK), es posible que haya un problema con la recolección de elementos no utilizados.
En la interfaz de usuario de MCS:
- Si la "Última recolección de elementos no utilizados" tiene una "x" roja , como se muestra anteriormente, existe un posible problema con la recolección de elementos no utilizados y se requiere un análisis más detallado.
Si la recolección de elementos no utilizados continúa fallando debido a un problema genuino (como se valida mediante los pasos anteriores), seleccione las opciones adecuadas en el Formulario de respuesta de alerta para transferir la solicitud de servicio a un agente de soporte.
Additional Information
Confirmación de errores una vez que se haya resuelto el problema:
Desde la CLI:
- Busque los eventos no confirmados mediante la ejecución del siguiente comando:
mccli event show --unack
- Confirme el código único ingresando el ID único o todos los códigos de error:
mccli event show --id-

Desde la AUI:
- Inicie sesión en la AUI y vea el tablero:
- Haga clic en el signo de exclamación y la pantalla mostrará algo similar a lo siguiente:
- Haga clic en Unacknowledged events, y la pantalla mostrará algo similar a lo siguiente:
- Seleccione el evento (como se muestra anteriormente) y haga clic en Confirmar.
Determinar cuánto tiempo ha fallado el GC:
La manera más sencilla de determinar cuánto tiempo ha estado fallando GC es usar la CLI (aunque esta información también está disponible en la IU de AUI y MCS)
El siguiente comando muestra todas las fallas de recolección de elementos no utilizados de los últimos 30 días:
dumpmaintlogs --types=gc --days=30 |grep "failed garbage collection"
2024/05/27-16:32:18.55893 {0.0} <4202> failed garbage collection with error MSG_ERR_DDR_ERROR
2024/05/28-16:32:37.92920 {0.0} <4202> failed garbage collection with error MSG_ERR_DDR_ERROR
2024/05/29-16:31:51.62962 {0.0} <4202> failed garbage collection with error MSG_ERR_DDR_ERROR
2024/05/30-16:31:55.18969 {0.0} <4202> failed garbage collection with error MSG_ERR_DDR_ERROR
2024/06/20-01:19:09.97961 {0.0} <4202> failed garbage collection with error MSG_ERR_DDR_ERROR
