Avamar: Conceptos y capacitación sobre la administración de capacidad

Resumen: Este artículo es para la administración de capacidad del sistema operativo y el usuario de Avamar. Los lectores previstos son administradores de Avamar y aquellos que monitorean el estado de Avamar, que requieren una comprensión práctica de cómo administrar el SO y la capacidad del usuario. ...

Este artículo se aplica a Este artículo no se aplica a Este artículo no está vinculado a ningún producto específico. No se identifican todas las versiones del producto en este artículo.

Síntomas

Para los problemas de administración de capacidad relacionados con Data Domain, consulte la sección "Recuperación del almacenamiento en un sistema Data Domain completo" de la Guía de integración de Avamar y del sistema Data Domain.

Aquí puede encontrar las guías relevantes para su entorno operativo: Cómo encontrar la documentación de Avamar en el sitio de soporte de Dell.

 
Objetivos de este artículo: 
  • Resumir los tipos de datos que se almacenan en los particionamientos /data*.
  • Introduzca el concepto de "capacidad del sistema operativo (SO)" y contrastelo con el concepto de "capacidad del usuario" (a veces denominado "GSAN Capacidad.")
  • Explicar por qué Avamar no se debe ejecutar cerca del límite de capacidad del usuario.
  • Enumerar los factores que contribuyen a la sobrecarga de los puntos de control.
  • Describir cómo controlar la utilización de particiones de datos.
  • Describir los síntomas que se experimentan si la capacidad del sistema operativo se sale de control.
  • Enumerar las causas típicas del MSG_ERR_DISKFULL mensaje.
  • Describir los métodos de recuperación utilizados cuando la alta capacidad del sistema operativo afecta el funcionamiento normal del sistema.
  • Describir los síntomas que se experimentan si la capacidad del usuario supera el límite de la capacidad del usuario.
  • Analizar cómo recuperarse de una situación de alta capacidad del usuario.


En este artículo, se supone que el lector está familiarizado con la sección "Administración de capacidad" de la Guía de mejores prácticas operativas de Avamar.

Una vez más, las guías relevantes para su entorno operativo se pueden encontrar aquí: Cómo encontrar la documentación de Avamar en el sitio de soporte de Dell.

Los siguientes son los problemas comunes que afectan o son síntomas de alta capacidad del sistema operativo:

  • Validación del punto de control (hfscheck) está fallando.
  • La recolección de elementos no utilizados no se ejecuta y los informes MSG_ERR_DISKFULL.
  • Fallas en la creación de puntos de control.
Los síntomas comunes que están estrechamente asociados con una "capacidad del usuario" demasiado alta son los siguientes:
  • Los respaldos fallan.
  • Los trabajos de replicación entrantes fallan.
  • La interfaz del administrador muestra el sistema en modo "Admin" durante la ventana de respaldo.

Causa

En este artículo, se proporcionan los conceptos relacionados con la capacitación y conceptos de administración de capacidad de Avamar.

Resolución

¿Cómo se almacenan los datos en la red de Avamar?

La administración de capacidad de Avamar se refiere a los datos que se encuentran en los particionamientos /data* de todos los nodos de datos de Avamar.

Consiste en lo siguiente:
  • Datos de respaldo deduplicados
  • Datos de paridad RAIN
  • Datos de sobrecarga de puntos de control

Tanto la paridad RAIN como los datos de punto de control son capas de redundancia disponibles para Avamar, además de RAID y replicación.

El espacio libre en las particiones de datos también es necesario para que las tareas de mantenimiento, como la recolección de elementos no utilizados (GC) y el procesamiento asíncrono de secciones, se ejecuten correctamente.

A continuación, se muestra una representación gráfica del espacio de almacenamiento físico disponible dentro de las particiones de datos en los nodos de almacenamiento de Avamar.

Desglose de la capacidad de Avamar

 

¿Cómo se almacenan los datos en los particionamientos de datos?

En el diagrama anterior, hay una representación simple de cómo se utiliza el espacio en las particiones de datos.

El valor 100 % a la izquierda se define como la cantidad total de espacio físico disponible para el sistema operativo en las particiones de datos.

Si alguna de las particiones de datos consume más del 89 % del espacio total, la recolección de elementos no utilizados no se puede ejecutar.
  • El marcador de capacidad del usuario del 100 % (límite de solo lectura) indica que hasta el 65 % del espacio total en la partición de datos está disponible para el almacenamiento de datos desduplicados.
  • El espacio debajo de este marcador de capacidad del usuario del 100 % es equivalente al valor de utilización del servidor visible en la interfaz de usuario del administrador.

Si la cantidad de datos desduplicados que se almacenan en cualquier partición de datos en cualquier nodo alcanza el 65 %, Avamar se vuelve de solo lectura y rechaza más datos de respaldo.

En función de lo anterior, se puede entender que, desde la interfaz de usuario de Avamar Administrator, el usuario tiene visibilidad del espacio que han consumido los respaldos, pero no tiene visibilidad del espacio que se consume en las particiones de datos del sistema operativo.

Por qué un sistema Avamar no debe ejecutarse cerca del límite de "Capacidad del usuario":

La relación entre la alta "capacidad del usuario" y la sobrecarga del punto de control es tal que, a medida que un sistema se llena cada vez más, incluso pequeños aumentos en los datos de respaldo pueden causar grandes aumentos en la sobrecarga del punto de control.

Una discusión completa de por qué este es el caso está más allá del alcance de este artículo, sin embargo, lo importante que debe recordar es: Cuanto más cerca esté un sistema Avamar del 100 % de la capacidad del usuario, menor será la capacidad del sistema operativo disponible para la sobrecarga de los puntos de control.

En un sistema completo, según el diagrama anterior, la sobrecarga de puntos de control se limita al 20 % del espacio total del sistema operativo en las particiones de datos.

Para que un sistema Avamar se ejecute de manera confiable en altos niveles de "capacidad de usuario", debe cumplir con los siguientes criterios:

Si alguna de estas afirmaciones cambia de verdadero a falso, se puede esperar que la sobrecarga del punto de control aumente gradual o repentinamente y cause graves problemas operativos.

Factores que contribuyen a la sobrecarga de los puntos de control:

Los siguientes factores pueden hacer que aumente la sobrecarga del punto de control.
  • Procesamiento asíncrono de fracciones (habilitado de manera predeterminada).
  • La cantidad de puntos de control almacenados en el sistema.
  • La validación del punto de control no se completa correctamente todos los días.
  • Qué tan vacías están las fracciones cuando Avamar Server las reutiliza (la gravedad de este hecho aumenta a medida que la utilización del servidor es mayor).
  • La tasa diaria de cambio de los respaldos.

Un administrador del sistema tiene cierto grado de control sobre estos factores. La configuración del procesamiento asíncrono es solo para soporte, pero los administradores pueden eliminar el exceso de puntos de control, investigar las fallas de los puntos de control e influir en la utilización del servidor y en la tasa diaria de cambio de datos.

Cómo monitorear la utilización de particionamientos de datos:

La manera correcta de monitorear la utilización de la partición de datos del sistema operativo es utilizar el siguiente comando de Avamar desde Avamar Utility Node:

avmaint nodelist | grep fs-percent        
 

Ejemplo del mensaje de salida:

fs-percent-full="7.8"
fs-percent-full="6.3"
fs-percent-full="6.4"
fs-percent-full="6.4"
fs-percent-full="7.6"
fs-percent-full="6.2"
fs-percent-full="6.1"
fs-percent-full="6.6"
fs-percent-full="7.8"
fs-percent-full="6.4"
fs-percent-full="6.5"
fs-percent-full="6.8"
    • Esta salida proporciona una lectura real de la utilización de la capacidad del sistema operativo.
    • En una red en la que los nodos de datos utilizan un grupo de archivos, el comando de Linux df no es representativo porque las fracciones se preasignan dentro del grupo de archivos, y es posible que muchas de ellas no estén actualmente en uso.
 

¿Qué sucede si el uso de la capacidad del sistema operativo se sale de control?

Desde el punto de vista del usuario, el primer indicio de que la utilización de la partición de datos está fuera de control se produce cuando se eleva por encima del 89 %.

La recolección de elementos no utilizados ya no puede ejecutarse y falla con un MSG_ERR_DISKFULL mensaje de error.

Aquí es donde a menudo ocurren malentendidos: Por lo general, el usuario interpreta el MSG_ERR_DISKFULL mensaje que significa que el sistema ya no tiene espacio para los respaldos.

Esta interpretación no es correcta; sin embargo, por lo general, el usuario comprueba el valor de utilización del servidor en la interfaz de usuario de Avamar Administrator y encuentra que el valor es aceptable, por ejemplo, 60 %.

El usuario puede intentar eliminar respaldos desde la interfaz de administración de respaldos de la interfaz de usuario de Avamar. Incluso si el nivel de capacidad del usuario fuera alto, la eliminación de respaldos no aliviaría la situación, ya que la recolección de elementos no utilizados no se puede ejecutar y elimina del sistema los fragmentos de datos vencidos.

Si un sistema experimenta un problema de alta capacidad del sistema operativo y una alta capacidad de usuario, concéntrese en resolver el problema de alta capacidad del sistema operativo primero. 

En caso de una alta utilización de la capacidad del sistema operativo, el sistema podría quedarse sin espacio para crear puntos de control.

¿Cuál es el origen del mensaje MSG_ERR_DISKFULL?

La causa más común es una sobrecarga de puntos de control demasiado alta. Las causas típicas de una sobrecarga elevada de puntos de control podrían ser los siguientes:
  • Validación del punto de control (hfscheck) ha fallado en repetidas ocasiones.
  • Un hfscheck La falla tiene muchas causas raíz posibles (cancelación abrupta, falla de software, etc.).
  • El sistema está demasiado lleno y tiene una alta tasa diaria de cambio de datos.
  • El sistema necesita más nodos de datos para manejar la tasa de cambio de datos y almacenarlos.
  • El sistema está configurado para realizar respaldos de una cantidad de datos o clientes superior a la capacidad para la que fue diseñado.
  • Se están almacenando demasiados puntos de control (Avamar almacena dos puntos de control de manera predeterminada, uno de los cuales se validó).
  • El administrador del sistema creó puntos de control en exceso.
  • Se realizó mantenimiento recientemente, pero no se restablecieron los valores predeterminados de retención de puntos de control.
 

Consulte el siguiente artículo para ayudar a resolver el problema MSG_ERR_DISKFULL Escenario: Avamar: Las tareas de mantenimiento fallan con MSG_ERR_DISKFULL debido a que la capacidad del sistema operativo de una o más particiones de datos supera el 89 %

 

Acciones para investigar y ayudar a aliviar la alta capacidad del sistema operativo:

1. Determine cuándo se ejecutará la última hfscheck terminado. Esto se puede hacer mediante Avamar Administrator o la línea de comandos en el nodo de utilidad de Avamar:

  • En la interfaz de usuario de Avamar Java Administrator:
    • Vaya a la pestaña Server > Checkpoint Management
    • Compruebe la fecha y la hora más recientes que aparecen en la columna Checkpoint Validation. Esto debería haber ocurrido en las últimas 24 horas.

-- O --

  • Mediante la línea de comandos del nodo de utilidad de Avamar:
    • Ejecute el comando: cplist.
A continuación, se muestra un ejemplo de la salida de la CLI:
admin@utilitynode:~/>: cplist
cp.20110114111419 Fri Jan 14 11:14:19 2011   valid rol ---  nodes   3/3 stripes   1131
cp.20110114194457 Fri Jan 14 19:44:57 2011   valid --- ---  nodes   3/3 stripes   1131
        • El punto de control validado más reciente que se enumera aquí tiene fecha del 14 de enero a las 11:14.
        • Se identifica por la marca directamente después del marcador 'válido'.
        • Según los tipos de validaciones de puntos de control configuradas en el sistema, la marca podría ser rol o hfs.
        • Este es un ejemplo de un rol (rodando) hfscheck.

Si los resultados muestran que el punto de control validado más reciente tiene más de 24 horas, averigüe por qué. Esto podría deberse a que el método HFScheck no se ejecutó o falló.

2. Confirme si HFScheck Se ejecutó o, si falló:

En el nodo de utilidad de Avamar, ejecute el comando status.dpn y encuentre la línea que comienza con "Last hfscheck".

Por ejemplo:

Last hfscheck: finished Sat Jan 15, 11:07:17 2011 after 06m 41s >> checked 528 of 528 stripes (OK)

Tome nota de cuándo terminó y cuál era el estado (en la línea anterior, el estado se muestra como "OK").

Nota: El script sched.sh también se puede utilizar para identificar cuando un HFScheck La última ejecución y si se realizó correctamente.
 

Si la solicitud en hfscheck Los trabajos han estado fallando, esto debe investigarse de inmediato.

Si la solicitud en hfscheck no se ejecutó últimamente, verifique que el programador de mantenimiento esté habilitado mediante la ejecución del comando "dpnctl status maint" en el nodo de utilidad de Avamar: .

admin@utilitynode:~/>: dpnctl status maint
Identity added: /home/admin/.ssh/dpnid (/home/admin/.ssh/admin_key)
dpnctl: INFO: Maintenance windows scheduler status: enabled.
  • Si el programador de ventanas de mantenimiento está inactivo, deshabilitado o suspendido, habilítelo con el comando: dpnctl start maint
  • De manera opcional, tome un nuevo punto de control y ejecútelo hfschecko espere a que se complete la siguiente ventana de mantenimiento programada.

Una vez que un hfscheck se completó correctamente (después de abordar cualquier problema o reiniciar el programador de mantenimiento), el punto de control más antiguo se "retirará" y la capacidad del sistema operativo debería reducirse considerablemente.

  • Si la capacidad del sistema operativo sigue siendo demasiado alta y la recolección de elementos no utilizados continúa fallando con el MSG_ERR_DISKFULL y, a continuación, solicite ayuda al equipo de soporte técnico de Dell.
  • De lo contrario, si la capacidad del sistema operativo es lo suficientemente baja como para permitir que se complete la recolección de elementos no utilizados, trabaje para reducir la "capacidad del usuario" y disminuir la cifra de "utilización del servidor".
 

Acciones para aliviar la alta capacidad del usuario:

A diferencia de la capacidad del sistema operativo, el administrador del sistema Avamar influye más fácil y directamente en los niveles de capacidad de usuario.

1. Asegúrese de que la recolección de elementos no utilizados se ejecute todos los días y que los respaldos no la interrumpan.

Este es el punto más crucial, ya que incluso un sistema de tamaño adecuado experimenta rápidamente una alta capacidad de usuario si la recolección de elementos no utilizados no se ejecuta de manera regular o confiable.

Como se mostró anteriormente, confirme que la ventana de mantenimiento esté habilitada y utilice el comando capacity.sh y sched.sh Scripts para verificar que la recolección de elementos no utilizados se esté ejecutando y que esté eliminando datos.

Antes de Avamar v7.x, los respaldos no se podían ejecutar durante la ventana de "restricción" de recolección de elementos no utilizados.

La función Hash Referenced Bit Maps presentada con la función Avamar v7.x permite que los respaldos se realicen durante la actividad de mantenimiento de GC. Esta característica requiere que estos "mapas" tengan al menos 5 minutos de tiempo "silencioso" por día durante el cual no se ejecutan respaldos para que puedan restablecerse.

Se puede acceder al contenido sobre esta función mediante el enlace al artículo Avamar: A partir de la versión 7 de Avamar, la recolección de elementos no utilizados informa "Hashes omitidos" que no se pueden limpiar debido a "Hash Referenced Bit Maps" cuando los datos están en uso.

2. Deje de agregar nuevos clientes a la red.

Una vez que una cuadrícula de Avamar esté cerca de su capacidad máxima, deje de agregar nuevos clientes inmediatamente para evitar que la situación empeore.

Si hay otra cuadrícula de Avamar que se ejecuta con un nivel inferior de utilización del servidor, considere agregar nuevos clientes a esa cuadrícula en lugar del servidor que se está llenando.

3. Descubra qué clientes consumen más espacio de almacenamiento.

Para solucionar un problema de capacidad, identifique qué clientes son responsables de agregar la mayoría de los datos al sistema Avamar.

La variable capacity.sh El script (ejecutado desde la línea de comandos del nodo de utilidad de Avamar) también se puede utilizar para identificar qué clientes tienen la tasa de cambio más alta.

Consulte Avamar: Cómo administrar la capacidad con el capacity.sh script para obtener más información sobre cómo usar el comando capacity.sh Guión.

A menudo se encuentra que los clientes más "hambrientos" son aquellos que respaldan bases de datos SQL o servidores de correo electrónico, así que preste especial atención a estos.

4. Vuelva a evaluar las políticas de retención.

Después de identificar a los clientes con una tasa alta de cambios, vuelva a evaluar las políticas de retención para ver si alguna se puede reducir para disminuir los requisitos de almacenamiento a un nivel aceptable.

Nota: Se recomienda que las políticas de retención se establezcan en al menos 14 días.
 

Si el sistema es lo suficientemente antiguo como para haber comenzado a caducar los respaldos conservados más largos, después de reducir las políticas de retención, espere ver un aumento en la cantidad de datos eliminados cada día por la recolección de elementos no utilizados. Monitoree esta tendencia con capacity.sh.

Si el sistema Avamar aún no es lo suficientemente antiguo como para haber comenzado a expirar los respaldos, es posible que sea necesario modificar las políticas de retención para que los respaldos más antiguos comiencen a expirar.

Si no es posible reducir las políticas de retención debido a los requisitos normativos, considere expandir el sistema Avamar o migrar clientes a otro Avamar menos utilizado.

5. Migre clientes a un sistema Avamar alternativo.

Si hay otro sistema Avamar, evalúe la posibilidad de migrar clientes grandes o con una alta tasa de cambio desde sistemas más utilizados a otros menos utilizados a través de la interfaz del Avamar Client Manager.

Nota:
  • El nuevo servidor Avamar requiere suficiente almacenamiento para los clientes Avamar que se migrarán.
  • Mantenga a los clientes con un tipo de datos similar en el mismo sistema Avamar para aprovechar las eficiencias de deduplicación.
  • Esta estrategia se utiliza mejor cuando los sistemas Avamar se encuentran en la misma red de área local.
 

6. Elimine los respaldos antiguos.

Si el nivel de capacidad del usuario es grave (>90 %), es posible que sea necesario caducar los respaldos antiguos a través de la interfaz de administración de respaldos o con la modify-snapups herramienta. 

Los usuarios de Dell pueden acceder al contenido mediante el enlace al artículo Avamar: Administración de capacidad: cómo eliminar o hacer caducar los respaldos de forma masiva con la opción "modify-snapups" herramienta

La eliminación de respaldos no reduce inmediatamente el nivel de utilización del servidor. Lo que hace es permitir que la recolección de elementos no utilizados comience a eliminar los datos la próxima vez que se ejecute. La eliminación de respaldos antiguos es una solución alternativa a corto plazo. Los respaldos se reemplazarán en los próximos días. Si se eliminan respaldos, es fundamental ajustar también las políticas de retención.

7. Monitoree el cambio de datos mediante capacity.sh.

Después de eliminar los respaldos y cambiar las políticas de retención, monitoree de cerca la cantidad de datos que se modificaron en el sistema mediante capacity.sh Guión. El valor de los datos "eliminados" debería aumentar y el valor "cambio neto" debería volverse negativo. Finalmente, a medida que se borran los datos en exceso del sistema, el valor "Removed" comenzará a volver a niveles más normales. Continúe monitoreando el valor "Eliminado".

Si el valor del cambio neto no es negativo, revise el registro de GC para ver por cuánto tiempo se ejecuta la recolección de elementos no utilizados y cuánto trabajo está logrando dentro de la ventana de mantenimiento.

Consulte Avamar: Cómo administrar la capacidad con el capacity.sh para obtener más información sobre cómo usar el script capacity.sh Guión.

8. Expanda el sistema Avamar:

A menudo, la alta utilización en la cuadrícula de Avamar se debe al crecimiento natural y esperado de los datos. Se debe liberar más espacio para continuar con los respaldos de producción.

La forma en que se puede hacer esto depende del tipo de cuadrícula de Avamar.
  • Cuadrículas de nodo único y Avamar Virtual Edition (AVE):
    • Estos no se pueden expandir. Encargue un segundo sistema Avamar más grande y solicite a Dell Professional Services que realice una migración del sistema más pequeño al más grande.
      • Los servicios profesionales se pueden contratar a través del ejecutivo de cuentas de Dell.
    • El nuevo sistema puede ser un sistema de nodo único, AVE o de múltiples nodos, si proporciona más espacio de almacenamiento que el origen.
  • Cuadrículas de múltiples nodos:
    • Estos sistemas se pueden expandir hasta 16 nodos de datos.
      • Comuníquese con el ejecutivo de cuentas de Dell para obtener detalles (los canales de soporte regulares no realizan adiciones de nodos, por lo que no se debe abrir una solicitud de servicio para solicitar este trabajo).
  • Integrar Data Domain:
    • Integrar un sistema Data Domain como dispositivo de almacenamiento de backend es una forma útil de ampliar la capacidad disponible para los clientes que realizan respaldos en Avamar.
      • Analice las opciones con su ejecutivo de cuentas de Dell.

Información adicional

Herramientas útiles

  • status.dpn
  • capacity.sh
  • Avalanche
  • DPN Summary Report
  • replcnt.sh
  • Administrador de Avamar Client

Prácticas recomendadas:
  • Intente evitar que el valor de utilización (capacidad del usuario) de Avamar Server supere el 80 %.
  • Una menor capacidad del usuario proporciona resiliencia contra cambios inesperados en la cantidad de datos agregados y puede proteger al sistema para que no se vuelva inutilizable en caso de fallas imprevistas o problemas a corto plazo durante las tareas de mantenimiento.
  • Un sistema Avamar que se ejecuta por encima del 80 % de la capacidad del usuario requiere un monitoreo más diligente por parte del administrador del sistema para garantizar que las tareas de mantenimiento se completen correctamente y que el sistema no pase al modo de solo lectura.

Productos afectados

Avamar, Avamar Server

Productos

Avamar
Propiedades del artículo
Número del artículo: 000079977
Tipo de artículo: Solution
Última modificación: 09 jun 2026
Versión:  21
Encuentre respuestas a sus preguntas de otros usuarios de Dell
Servicios de soporte
Compruebe si el dispositivo está cubierto por los servicios de soporte.