Avamar: Conceptos y capacitación sobre la administración de capacidad
Summary: Este artículo es para la administración de capacidad del sistema operativo y el usuario de Avamar. Está pensado para los administradores del sistema Avamar o para aquellos que controlan el estado de una red de Avamar, que requieren una comprensión práctica de cómo administrar el sistema operativo y los niveles de capacidad del usuario. ...
Symptoms
Objetivos de este artículo:
- Resumir los tipos de datos que se almacenan en los particionamientos /data*.
- Introducir el concepto de "capacidad del sistema operativo" y contrastarlo con el concepto de "capacidad del usuario" (a veces denominado "capacidad de GSAN").
- Explicar por qué Avamar no se debe ejecutar cerca del límite de capacidad del usuario.
- Enumerar los factores que contribuyen a la sobrecarga de los puntos de control.
- Describir cómo controlar la utilización de particiones de datos.
- Describir los síntomas que se experimentan si la capacidad del sistema operativo se sale de control.
- Enumerar las causas típicas del
MSG_ERR_DISKFULLmensaje. - Describir los métodos de recuperación utilizados cuando la alta capacidad del sistema operativo afecta el funcionamiento normal del sistema.
- Describir los síntomas que se experimentan si la capacidad del usuario supera el límite de la capacidad del usuario.
- Analizar cómo recuperarse de una situación de alta capacidad del usuario.
En este artículo, se supone que el lector está familiarizado con la sección "Administración de capacidad" de la Guía de prácticas operativas recomendadas de Avamar.
Las guías relevantes para su entorno operativo se encuentran en Cómo encontrar la documentación de Avamar en el sitio de soporte de Dell.
Los siguientes son los problemas comunes que afectan o son síntomas de una "capacidad del sistema operativo" demasiado alta:
- La validación del punto de control (hfscheck) falla.
- La recolección de elementos no utilizados no se ejecuta y se informa el mensaje MSG_ERR_DISKFULL.
- Fallas en la creación de puntos de control.
- Los respaldos fallan.
- Los trabajos de replicación entrantes fallan.
- La interfaz del administrador muestra el sistema en modo "Admin" durante la ventana de respaldo.
Cause
Resolution
¿Cómo se almacenan los datos en la red de Avamar?
La administración de capacidad de Avamar se refiere a los datos que se encuentran en los particionamientos /data* de todos los nodos de datos de Avamar. Consiste en lo siguiente:
- Datos de respaldo deduplicados
- Datos de paridad RAIN
- Datos de sobrecarga de puntos de control
También se requiere espacio libre en los particionamientos de datos para que las tareas de mantenimiento, como la recolección de elementos no utilizados y el procesamiento asíncrono de fracciones, se ejecuten correctamente.
A continuación, se muestra una representación gráfica del espacio de almacenamiento físico disponible dentro de los particionamientos de datos en los nodos de almacenamiento de Avamar.
¿Cómo se almacenan los datos en los particionamientos de datos?
En el diagrama anterior, vemos una representación simple de cómo se usa el espacio en los particionamientos de datos.
El valor 100 % a la izquierda se define como la cantidad total de espacio físico disponible para el sistema operativo en los particionamientos de datos.
Si alguno de los particionamientos de datos consume más del 85 % del espacio total, la recolección de elementos no utilizados no se puede ejecutar.
El marcador de capacidad del usuario del 100 % (límite de solo lectura) indica que hasta el 65 % del espacio total en el particionamiento de datos está disponible para el almacenamiento de datos deduplicados. El espacio debajo de este marcador de capacidad del usuario del 100 % es equivalente al valor de utilización del servidor visible en la interfaz de usuario del administrador. Si la cantidad de datos deduplicados que se almacenan en cualquier particionamiento de datos en cualquier nodo alcanza el 65 %, el sistema Avamar se vuelve de solo lectura y rechaza más datos de respaldo.
Ahora podemos comprender que, desde la interfaz de usuario de Avamar Administrator, el usuario puede ver el espacio consumido por los respaldos, pero no puede ver el espacio utilizado por los particionamientos de datos del sistema operativo.
Por qué un sistema Avamar no debe ejecutarse cerca del límite de "Capacidad del usuario":
La relación entre una "Capacidad del usuario" alta y la sobrecarga del punto de control es tal que, a medida que un sistema se llena cada vez más, incluso pequeños aumentos en los datos de respaldo pueden provocar grandes aumentos en la sobrecarga del punto de control.
Una explicación detallada de este fenómeno excede el alcance de este artículo. Sin embargo, el aspecto clave a recordar es el siguiente: Cuanto más cerca esté un sistema Avamar del 100 % de la capacidad del usuario, menor será la capacidad disponible del sistema operativo para la sobrecarga de los puntos de control.
En un sistema completo, como se puede ver en el diagrama anterior, la sobrecarga del punto de control se limita al 20 % del espacio total del sistema operativo en los particionamientos de datos.
Para que un sistema Avamar se ejecute de manera confiable en altos niveles de "Capacidad del usuario", debe cumplir con los siguientes criterios:
- El sistema debe tener una tasa baja de datos modificados diariamente (no superior al 1 %).
- La capacidad debe encontrarse en un estado estable (como se describe en la sección "Administración de capacidad" de la Guía de prácticas operativas recomendadas de Avamar). Aquí puede encontrar las guías relevantes para su entorno operativo: Cómo encontrar la documentación de Avamar en el sitio de soporte de Dell.
- Las tareas de mantenimiento deben completarse correctamente todos los días.
Factores que contribuyen a la sobrecarga de los puntos de control:
Los siguientes factores pueden hacer que aumente la sobrecarga del punto de control.
- Procesamiento asíncrono de fracciones (habilitado de manera predeterminada).
- La cantidad de puntos de control almacenados en el sistema.
- La validación del punto de control no se completa correctamente todos los días.
- Qué tan vacías están las fracciones cuando Avamar Server las reutiliza (la gravedad de este hecho aumenta a medida que la utilización del servidor es mayor).
- La tasa diaria de cambio de los respaldos.<
Cómo monitorear la utilización de particionamientos de datos:
La manera correcta de monitorear la utilización del particionamiento de datos del sistema operativo es utilizar el siguiente comando de Avamar desde el nodo de utilidad de Avamar.
Por ejemplo:
admin@utilitynode:~/>: avmaint nodelist | grep fs-percent
fs-percent-full="7.8"
fs-percent-full="6.3"
fs-percent-full="6.4"
fs-percent-full="6.4"
fs-percent-full="7.6"
fs-percent-full="6.2"
fs-percent-full="6.1"
fs-percent-full="6.6"
fs-percent-full="7.8"
fs-percent-full="6.4"
fs-percent-full="6.5"
fs-percent-full="6.8"
Esta salida le proporciona una lectura precisa de la utilización de la capacidad del sistema operativo. En una red en la que los nodos de datos utilizan un grupo de archivos, el comando de Linux df no es representativo porque las fracciones se preasignan dentro del grupo de archivos, y es posible que muchas de ellas no estén actualmente en uso.
¿Qué sucede si el uso de la capacidad del sistema operativo se sale de control?
Desde el punto de vista del usuario, el primer indicio de que la utilización del particionamiento de datos está fuera de control se produce cuando aumenta por encima del 85 %.
La recolección de elementos no utilizados ya no puede ejecutarse y falla con un
MSG_ERR_DISKFULL mensaje de error.
Aquí es donde a menudo ocurren malentendidos: Por lo general, el usuario interpreta el
MSG_ERR_DISKFULL mensaje que significa que el sistema ya no tiene espacio para los respaldos.
Esta interpretación no es correcta; sin embargo, el usuario suele comprobar el valor de utilización del servidor en la interfaz de usuario de Avamar Administrator y encuentra que el valor es aceptable, por ejemplo, 60 %.
El usuario podría intentar eliminar respaldos desde la interfaz de administración de respaldos de la interfaz de usuario de Avamar. Aunque el nivel de capacidad del usuario sea alto, eliminar respaldos no aliviaría la situación, ya que la recolección de elementos no utilizados no se puede ejecutar y se eliminan fragmentos de datos caducados del sistema.
Si un sistema experimenta problemas tanto de alta capacidad del sistema operativo como de alta capacidad del usuario, primero concéntrese en resolver el problema de alta capacidad del sistema operativo.
En caso de una alta utilización de la capacidad del sistema operativo, el sistema podría quedarse sin espacio para crear puntos de control.
¿Cuál es el origen del mensaje MSG_ERR_DISKFULL?
La causa más común es una sobrecarga de puntos de control demasiado alta. Las causas típicas de una sobrecarga elevada de puntos de control podrían ser los siguientes:
- La validación del punto de control (hfscheck) falló varias veces.
- Una falla hfscheck puede deberse a muchas causas (cancelación abrupta, falla de software, etc.).
- El sistema está demasiado lleno y tiene una alta tasa diaria de cambio de datos.
- El sistema necesita más nodos de datos para manejar la tasa de cambio de datos y almacenarlos.
- El sistema está configurado para realizar respaldos de una cantidad de datos o clientes superior a la capacidad para la que fue diseñado.
- Se están almacenando demasiados puntos de control (Avamar almacena dos puntos de control de manera predeterminada, uno de los cuales se validó).
- El administrador del sistema creó puntos de control en exceso.
- Se realizó mantenimiento recientemente, pero no se restablecieron los valores predeterminados de retención de puntos de control.
Consulte el siguiente artículo para obtener ayuda para resolver el error MSG_ERR_DISKFULL: Las tareas de mantenimiento de Avamar fallan con "MSG_ERR_DISKFULL" debido a una capacidad de sistema operativo de particionamiento de datos superior al >89 %
Acciones para investigar y ayudar a aliviar la alta capacidad del sistema operativo.
1. Determine cuándo finalizó la última verificación de hfscheck. Esto se puede hacer mediante Avamar Administrator o la línea de comandos en el nodo de utilidad de Avamar:
- En Avamar Administrator, vaya a la pestaña Server > Checkpoint Management.
- Compruebe la fecha y la hora más recientes que aparecen en la columna Checkpoint Validation. Esto debería haber ocurrido en las últimas 24 horas.
- Mediante la línea de comandos del nodo de utilidad de Avamar, ejecute el comando cplist.
admin@utilitynode:~/>: cplist
cp.20110114111419 Fri Jan 14 11:14:19 2011 valid rol --- nodes 3/3 stripes 1131
cp.20110114194457 Fri Jan 14 19:44:57 2011 valid --- --- nodes 3/3 stripes 1131
Si los resultados muestran que el punto de control validado más reciente tiene más de 24 horas, averigüe por qué. Esto podría deberse a que HFScheck no se ejecutó o falló.
2. Confirme si HFScheck se ejecutó o si falló.
Por ejemplo:
Last hfscheck: finished Sat Jan 15, 11:07:17 2011 after 06m 41s >> checked 528 of 528 stripes (OK)
.
admin@utilitynode:~/>: dpnctl status maint
Identity added: /home/admin/.ssh/dpnid (/home/admin/.ssh/admin_key)
dpnctl: INFO: Maintenance windows scheduler status: enabled.
- Si el programador de ventanas de mantenimiento está inactivo, deshabilitado o suspendido, habilítelo con el comando dpnctl start maint
- De manera opcional, tome un punto de control nuevo y ejecute hfscheck, o espere a que se complete la siguiente ventana de mantenimiento programado.
Una vez que hfscheck se haya completado correctamente (después de abordar cualquier problema o reiniciar el programa de mantenimiento), el punto de control más antiguo se "eliminará" y la capacidad del sistema operativo debería reducirse considerablemente.
- Si la capacidad del sistema operativo sigue siendo demasiado alta y la recolección de elementos no utilizados continúa fallando con el mensaje MSG_ERR_DISKFULL, pida ayuda al equipo de soporte técnico de Dell.
- De lo contrario, si la capacidad del sistema operativo es lo suficientemente baja como para permitir que se complete la recolección de elementos no utilizados, trabaje para reducir la "capacidad del usuario" y disminuir la cifra de "utilización del servidor".
Acciones para aliviar la alta capacidad del usuario:
A diferencia de la capacidad del sistema operativo, el administrador del sistema Avamar influye más fácil y directamente en los niveles de capacidad del usuario.
1. Asegúrese de que la recolección de elementos no utilizados se ejecute todos los días y que los respaldos no la interrumpan.
Este es el punto más crítico, ya que incluso un sistema de tamaño adecuado experimentará rápidamente una alta capacidad del usuario si la recolección de elementos no utilizados no se ejecuta de manera regular o confiable.
Como se mostró antes, confirme que la ventana de mantenimiento esté habilitada y utilice los scripts capacity.sh y sched.sh para verificar que la recolección de elementos no utilizados se esté ejecutando y que esté eliminando datos.
Antes de la versión 7.x de Avamar, los respaldos no se podían ejecutar durante la ventana de "restricción" de recolección de elementos no utilizados.
La función Hash Referenced Bit Maps introducida en la versión 7.x de Avamar permite que los respaldos se realicen durante la actividad de mantenimiento de la recolección de elementos no utilizados. Esta característica requiere que estos "mapas" tengan al menos 5 minutos de "inactividad" por día durante los cuales no se ejecutan respaldos para que puedan restablecerse.
Se puede acceder al contenido sobre esta función mediante el enlace al artículo Avamar: A partir de la versión 7 de Avamar, la recolección de elementos no utilizados informa "Hashes omitidos" que no se pueden limpiar debido a "Hash Referenced Bit Maps" cuando los datos están en uso.
2. Deje de agregar nuevos clientes a la red.
Cuando una red Avamar se acerca a su capacidad máxima, debemos detener inmediatamente la incorporación de nuevos clientes para evitar que la situación empeore.
Si dispone de otra red Avamar que funcione con un nivel de utilización del servidor más bajo, plantéese agregar nuevos clientes a esa red en lugar de la que se está llenando.
3. Descubra qué clientes consumen más espacio de almacenamiento.
Para solucionar un problema de capacidad, debemos identificar qué clientes son responsables de agregar la mayor cantidad de datos al sistema Avamar.
El script capacity.sh (que se ejecuta desde la línea de comandos del nodo de utilidad de Avamar) también se puede utilizar para identificar qué clientes tienen la tasa de cambio más alta.
Los usuarios registrados de Dell pueden acceder al contenido mediante el enlace al artículo Avamar: Cómo administrar la capacidad con el script capacity.sh para obtener más detalles sobre cómo usar el script capacity.sh.
A menudo se descubre que los clientes que más capacidad consumen son aquellos que respaldan bases de datos SQL o servidores de correo electrónico, por lo que se debe prestar especial atención a estos.
4. Vuelva a evaluar las políticas de retención.
Después de identificar a los clientes con una tasa alta de cambios, vuelva a evaluar las políticas de retención para ver si alguna se puede reducir para disminuir los requisitos de almacenamiento a un nivel aceptable.
Si el sistema tiene el tiempo suficiente como para haber comenzado a expirar los respaldos conservados durante más tiempo, entonces después de reducir las políticas de retención, esperamos ver un aumento en la cantidad de datos eliminados diariamente por la recolección de elementos no utilizados. Controle esta tendencia con capacity.sh.
Si el sistema Avamar aún no es lo suficientemente antiguo como para haber comenzado a expirar los respaldos, es posible que sea necesario modificar las políticas de retención para que los respaldos más antiguos comiencen a expirar.
Si no es posible reducir las políticas de retención debido a requisitos normativos, debe considerar expandir el sistema Avamar o migrar clientes a otro sistema Avamar menos utilizado.
5. Migre clientes a un sistema Avamar alternativo.
Si hay otro sistema Avamar, evalúe la posibilidad de migrar clientes grandes o con una alta tasa de cambio desde sistemas más utilizados a otros menos utilizados a través de la interfaz del Avamar Client Manager.
- El nuevo Avamar Server necesita almacenamiento suficiente para los clientes de Avamar que desea migrar.
- Mantenga a los clientes con un tipo de datos similar en el mismo sistema Avamar para aprovechar las eficiencias de deduplicación.
- Esta estrategia se utiliza mejor cuando los sistemas Avamar se encuentran en la misma red de área local.
6. Elimine los respaldos antiguos.
Si el nivel de capacidad del usuario es grave (>90 %), es posible que sea necesario caducar los respaldos antiguos a través de la interfaz de administración de respaldos o con la herramienta modify-snapups.
Los usuarios de Dell pueden acceder al contenido mediante el enlace al artículo Administración de capacidad de Avamar: Cómo eliminar o hacer caducar respaldos de forma masiva con la herramienta "modify-snapups".
La eliminación de respaldos no reduce inmediatamente el nivel de utilización del servidor. Lo que hace es permitir que la recolección de elementos no utilizados comience a eliminar los datos la próxima vez que se ejecute. La eliminación de respaldos antiguos es una solución alternativa a corto plazo. Los respaldos se reemplazarán en los próximos días. Si se eliminan respaldos, es fundamental ajustar también las políticas de retención.
7. Controle el cambio de datos mediante capacity.sh.
Después de eliminar los respaldos y cambiar las políticas de retención, controle de cerca la cantidad de datos modificados en el sistema mediante el script capacity.sh. Debería comenzar a ver que el valor de los datos "eliminados" aumenta y el valor de "Net Change" debería volverse negativo. Finalmente, a medida que se borran los datos en exceso del sistema, el valor "Removed" comenzará a volver a niveles más normales. Siga controlando el valor "Removed".
Si el valor de cambio neto no es negativo, revise el registro de la recolección de elementos no utilizados para ver cuánto tiempo se ejecuta la recolección de elementos no utilizados y cuánto trabajo logra dentro de la ventana de mantenimiento.
Los usuarios de Dell pueden acceder al contenido mediante el enlace al artículo Avamar: Cómo administrar la capacidad con el script capacity.sh para obtener más información sobre cómo usar el script capacity.sh.
8. Expanda el sistema Avamar:
La alta utilización en el sistema Avamar a menudo se debe a un crecimiento natural y esperado de los datos. Se debe liberar más espacio para continuar con los respaldos de producción.
La forma en que se puede hacer esto depende del tipo de sistema Avamar.
- Sistemas de nodo único y sistemas Avamar Virtual Edition (AVE)
Estos no se pueden expandir. Encargue un segundo sistema Avamar más grande y solicite a Dell Professional Services que realice una migración del sistema más pequeño al más grande. Los servicios profesionales se pueden contratar a través del ejecutivo de cuentas de Dell.
El sistema nuevo puede ser un sistema de nodo único, AVE o de múltiples nodos, si proporciona más espacio de almacenamiento que el sistema original.
- Sistemas de múltiples nodos
Estos sistemas se pueden expandir hasta 16 nodos de datos. Comuníquese con el ejecutivo de cuentas de Dell para obtener más información. Los canales de soporte habituales no realizan adiciones de nodos, por lo que no se debe abrir una solicitud de servicio para pedir este trabajo.
- Integrar Data Domain
Integrar un sistema Data Domain como dispositivo de almacenamiento de backend es una forma útil de ampliar la capacidad disponible para los clientes que realizan respaldos en Avamar. Analice las opciones con su ejecutivo de cuentas de Dell.
Additional Information
Herramientas útiles
- status.dpn
- capacity.sh
- Avalanche
- Informe de resumen de DPN
- replcnt.sh
- Administrador de Avamar Client
Prácticas recomendadas:
-
Intente evitar que el valor de utilización (capacidad del usuario) de Avamar Server supere el 80 %.
-
Una menor capacidad del usuario proporciona resiliencia contra cambios inesperados en la cantidad de datos agregados y puede proteger al sistema para que no se vuelva inutilizable en caso de fallas imprevistas o problemas a corto plazo durante las tareas de mantenimiento.
-
Un sistema Avamar que se ejecuta por encima del 80 % de la capacidad del usuario requiere un monitoreo más diligente por parte del administrador del sistema para garantizar que las tareas de mantenimiento se completen correctamente y que el sistema no pase al modo de solo lectura.