Avamar: Conceptos y capacitación sobre la administración de capacidad

摘要: Este artículo es para la administración de capacidad del sistema operativo y el usuario de Avamar. Está pensado para los administradores del sistema Avamar o para aquellos que controlan el estado de una red de Avamar, que requieren una comprensión práctica de cómo administrar el sistema operativo y los niveles de capacidad del usuario. ...

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

症状

Para los problemas de administración de capacidad relacionados con Data Domain, consulte la sección "Recuperación del almacenamiento en un sistema Data Domain completo" de la Guía de integración de Avamar y del sistema Data Domain. Las guías relevantes para su entorno operativo se encuentran en Cómo encontrar la documentación de Avamar en el sitio de soporte de Dell.

Objetivos de este artículo:
 
  • Resumir los tipos de datos que se almacenan en los particionamientos /data*.
  • Introducir el concepto de "capacidad del sistema operativo" y contrastarlo con el concepto de "capacidad del usuario" (a veces denominado "capacidad de GSAN").
  • Explicar por qué Avamar no se debe ejecutar cerca del límite de capacidad del usuario.
  • Enumerar los factores que contribuyen a la sobrecarga de los puntos de control.
  • Describir cómo controlar la utilización de particiones de datos.
  • Describir los síntomas que se experimentan si la capacidad del sistema operativo se sale de control.
  • Enumerar las causas típicas del MSG_ERR_DISKFULL mensaje.
  • Describir los métodos de recuperación utilizados cuando la alta capacidad del sistema operativo afecta el funcionamiento normal del sistema.
  • Describir los síntomas que se experimentan si la capacidad del usuario supera el límite de la capacidad del usuario.
  • Analizar cómo recuperarse de una situación de alta capacidad del usuario.

En este artículo, se supone que el lector está familiarizado con la sección "Administración de capacidad" de la Guía de prácticas operativas recomendadas de Avamar.

Las guías relevantes para su entorno operativo se encuentran en Cómo encontrar la documentación de Avamar en el sitio de soporte de Dell.

Los siguientes son los problemas comunes que afectan o son síntomas de una "capacidad del sistema operativo" demasiado alta:
  • La validación del punto de control (hfscheck) falla.
  • La recolección de elementos no utilizados no se ejecuta y se informa el mensaje MSG_ERR_DISKFULL.
  • Fallas en la creación de puntos de control.
Los síntomas comunes que están estrechamente asociados con una "capacidad del usuario" demasiado alta son los siguientes:
  • Los respaldos fallan.
  • Los trabajos de replicación entrantes fallan.
  • La interfaz del administrador muestra el sistema en modo "Admin" durante la ventana de respaldo.

原因

Consulte la sección Resolución.

解决方案

¿Cómo se almacenan los datos en la red de Avamar?


La administración de capacidad de Avamar se refiere a los datos que se encuentran en los particionamientos /data* de todos los nodos de datos de Avamar. Consiste en lo siguiente:
  • Datos de respaldo deduplicados
  • Datos de paridad RAIN
  • Datos de sobrecarga de puntos de control
Tanto la paridad RAIN como los datos de puntos de control son capas de redundancia disponibles para Avamar, además de RAID y replicación.

También se requiere espacio libre en los particionamientos de datos para que las tareas de mantenimiento, como la recolección de elementos no utilizados y el procesamiento asíncrono de fracciones, se ejecuten correctamente.

A continuación, se muestra una representación gráfica del espacio de almacenamiento físico disponible dentro de los particionamientos de datos en los nodos de almacenamiento de Avamar.

Desglose de la capacidad de Avamar

 

¿Cómo se almacenan los datos en los particionamientos de datos?


En el diagrama anterior, vemos una representación simple de cómo se usa el espacio en los particionamientos de datos.

El valor 100 % a la izquierda se define como la cantidad total de espacio físico disponible para el sistema operativo en los particionamientos de datos.

Si alguno de los particionamientos de datos consume más del 85 % del espacio total, la recolección de elementos no utilizados no se puede ejecutar.

El marcador de capacidad del usuario del 100 % (límite de solo lectura) indica que hasta el 65 % del espacio total en el particionamiento de datos está disponible para el almacenamiento de datos deduplicados. El espacio debajo de este marcador de capacidad del usuario del 100 % es equivalente al valor de utilización del servidor visible en la interfaz de usuario del administrador. Si la cantidad de datos deduplicados que se almacenan en cualquier particionamiento de datos en cualquier nodo alcanza el 65 %, el sistema Avamar se vuelve de solo lectura y rechaza más datos de respaldo.

Ahora podemos comprender que, desde la interfaz de usuario de Avamar Administrator, el usuario puede ver el espacio consumido por los respaldos, pero no puede ver el espacio utilizado por los particionamientos de datos del sistema operativo.

 

Por qué un sistema Avamar no debe ejecutarse cerca del límite de "Capacidad del usuario":


La relación entre una "Capacidad del usuario" alta y la sobrecarga del punto de control es tal que, a medida que un sistema se llena cada vez más, incluso pequeños aumentos en los datos de respaldo pueden provocar grandes aumentos en la sobrecarga del punto de control.

Una explicación detallada de este fenómeno excede el alcance de este artículo. Sin embargo, el aspecto clave a recordar es el siguiente: Cuanto más cerca esté un sistema Avamar del 100 % de la capacidad del usuario, menor será la capacidad disponible del sistema operativo para la sobrecarga de los puntos de control.

En un sistema completo, como se puede ver en el diagrama anterior, la sobrecarga del punto de control se limita al 20 % del espacio total del sistema operativo en los particionamientos de datos.

Para que un sistema Avamar se ejecute de manera confiable en altos niveles de "Capacidad del usuario", debe cumplir con los siguientes criterios: Si alguna de estas afirmaciones cambia de verdadero a falso, se puede esperar que la sobrecarga del punto de control aumente gradual o repentinamente y cause graves problemas operativos.

 

Factores que contribuyen a la sobrecarga de los puntos de control:


Los siguientes factores pueden hacer que aumente la sobrecarga del punto de control.
  • Procesamiento asíncrono de fracciones (habilitado de manera predeterminada).
  • La cantidad de puntos de control almacenados en el sistema.
  • La validación del punto de control no se completa correctamente todos los días.
  • Qué tan vacías están las fracciones cuando Avamar Server las reutiliza (la gravedad de este hecho aumenta a medida que la utilización del servidor es mayor).
  • La tasa diaria de cambio de los respaldos.<
Un administrador del sistema tiene cierto grado de control sobre estos factores. La configuración del procesamiento asíncrono es solo para soporte, pero los administradores pueden eliminar el exceso de puntos de control, investigar las fallas de los puntos de control e influir en la utilización del servidor y en la tasa diaria de cambio de datos.

 

Cómo monitorear la utilización de particionamientos de datos:


La manera correcta de monitorear la utilización del particionamiento de datos del sistema operativo es utilizar el siguiente comando de Avamar desde el nodo de utilidad de Avamar.

Por ejemplo:

admin@utilitynode:~/>: avmaint nodelist | grep fs-percent
        fs-percent-full="7.8"
        fs-percent-full="6.3"
        fs-percent-full="6.4"
        fs-percent-full="6.4"
        fs-percent-full="7.6"
        fs-percent-full="6.2"
        fs-percent-full="6.1"
        fs-percent-full="6.6"
        fs-percent-full="7.8"
        fs-percent-full="6.4"
        fs-percent-full="6.5"
        fs-percent-full="6.8"
Esta salida le proporciona una lectura precisa de la utilización de la capacidad del sistema operativo. En una red en la que los nodos de datos utilizan un grupo de archivos, el comando de Linux df no es representativo porque las fracciones se preasignan dentro del grupo de archivos, y es posible que muchas de ellas no estén actualmente en uso.

 

¿Qué sucede si el uso de la capacidad del sistema operativo se sale de control?


Desde el punto de vista del usuario, el primer indicio de que la utilización del particionamiento de datos está fuera de control se produce cuando aumenta por encima del 85 %.

La recolección de elementos no utilizados ya no puede ejecutarse y falla con un MSG_ERR_DISKFULL mensaje de error.

Aquí es donde a menudo ocurren malentendidos: Por lo general, el usuario interpreta el MSG_ERR_DISKFULL mensaje que significa que el sistema ya no tiene espacio para los respaldos.

Esta interpretación no es correcta; sin embargo, el usuario suele comprobar el valor de utilización del servidor en la interfaz de usuario de Avamar Administrator y encuentra que el valor es aceptable, por ejemplo, 60 %.

El usuario podría intentar eliminar respaldos desde la interfaz de administración de respaldos de la interfaz de usuario de Avamar. Aunque el nivel de capacidad del usuario sea alto, eliminar respaldos no aliviaría la situación, ya que la recolección de elementos no utilizados no se puede ejecutar y se eliminan fragmentos de datos caducados del sistema.

Si un sistema experimenta problemas tanto de alta capacidad del sistema operativo como de alta capacidad del usuario, primero concéntrese en resolver el problema de alta capacidad del sistema operativo.

En caso de una alta utilización de la capacidad del sistema operativo, el sistema podría quedarse sin espacio para crear puntos de control.

 

¿Cuál es el origen del mensaje MSG_ERR_DISKFULL?


La causa más común es una sobrecarga de puntos de control demasiado alta. Las causas típicas de una sobrecarga elevada de puntos de control podrían ser los siguientes:
  • La validación del punto de control (hfscheck) falló varias veces.
  • Una falla hfscheck puede deberse a muchas causas (cancelación abrupta, falla de software, etc.).
  • El sistema está demasiado lleno y tiene una alta tasa diaria de cambio de datos.
  • El sistema necesita más nodos de datos para manejar la tasa de cambio de datos y almacenarlos.
  • El sistema está configurado para realizar respaldos de una cantidad de datos o clientes superior a la capacidad para la que fue diseñado.
  • Se están almacenando demasiados puntos de control (Avamar almacena dos puntos de control de manera predeterminada, uno de los cuales se validó).
  • El administrador del sistema creó puntos de control en exceso.
  • Se realizó mantenimiento recientemente, pero no se restablecieron los valores predeterminados de retención de puntos de control.

Consulte el siguiente artículo para obtener ayuda para resolver el error MSG_ERR_DISKFULL: Las tareas de mantenimiento de Avamar fallan con "MSG_ERR_DISKFULL" debido a una capacidad de sistema operativo de particionamiento de datos superior al >89 %

 

Acciones para investigar y ayudar a aliviar la alta capacidad del sistema operativo.


1. Determine cuándo finalizó la última verificación de hfscheck. Esto se puede hacer mediante Avamar Administrator o la línea de comandos en el nodo de utilidad de Avamar:
  • En Avamar Administrator, vaya a la pestaña Server > Checkpoint Management.
  • Compruebe la fecha y la hora más recientes que aparecen en la columna Checkpoint Validation. Esto debería haber ocurrido en las últimas 24 horas.
O bien,
 
  • Mediante la línea de comandos del nodo de utilidad de Avamar, ejecute el comando cplist.
A continuación, se muestra un ejemplo de la salida de la CLI.
 
admin@utilitynode:~/>: cplist
cp.20110114111419 Fri Jan 14 11:14:19 2011   valid rol ---  nodes   3/3 stripes   1131
cp.20110114194457 Fri Jan 14 19:44:57 2011   valid --- ---  nodes   3/3 stripes   1131
 
El punto de control validado más reciente que se enumera aquí tiene fecha del 14 de enero a las 11:14. Podemos identificarlo por la marca que se encuentra justo después del indicador "válido". Según los tipos de hfschecks configurados en el sistema, la marca podría ser rol o hfs. Este es rol (rolling hfscheck).

Si los resultados muestran que el punto de control validado más reciente tiene más de 24 horas, averigüe por qué. Esto podría deberse a que HFScheck no se ejecutó o falló.


2. Confirme si HFScheck se ejecutó o si falló.
 
En el nodo de utilidad de Avamar, ejecute status.dpn y busque la línea que contiene Last hfscheck.

Por ejemplo:
 
Last hfscheck: finished Sat Jan 15, 11:07:17 2011 after 06m 41s >> checked 528 of 528 stripes (OK)
Tome nota de cuándo terminó y cuál era el estado (en la línea anterior, el estado se muestra como "OK").
 
Nota: El script sched.sh también se puede utilizar para identificar cuándo se ejecutó por última vez una HFScheck y si se realizó correctamente.
 
Si los trabajos de hfscheck han fallado, esto se debe investigar de inmediato.
 
Si hfscheck no se ha ejecutado últimamente, verifique que el programador de mantenimiento esté habilitado mediante la ejecución del siguiente comando en el nodo de utilidad de Avamar: dpnctl status maint
.
admin@utilitynode:~/>: dpnctl status maint
Identity added: /home/admin/.ssh/dpnid (/home/admin/.ssh/admin_key)
dpnctl: INFO: Maintenance windows scheduler status: enabled.

  • Si el programador de ventanas de mantenimiento está inactivo, deshabilitado o suspendido, habilítelo con el comando dpnctl start maint
  • De manera opcional, tome un punto de control nuevo y ejecute hfscheck, o espere a que se complete la siguiente ventana de mantenimiento programado.


Una vez que hfscheck se haya completado correctamente (después de abordar cualquier problema o reiniciar el programa de mantenimiento), el punto de control más antiguo se "eliminará" y la capacidad del sistema operativo debería reducirse considerablemente.

  • Si la capacidad del sistema operativo sigue siendo demasiado alta y la recolección de elementos no utilizados continúa fallando con el mensaje MSG_ERR_DISKFULL, pida ayuda al equipo de soporte técnico de Dell.
  • De lo contrario, si la capacidad del sistema operativo es lo suficientemente baja como para permitir que se complete la recolección de elementos no utilizados, trabaje para reducir la "capacidad del usuario" y disminuir la cifra de "utilización del servidor".

 

 

Acciones para aliviar la alta capacidad del usuario:


A diferencia de la capacidad del sistema operativo, el administrador del sistema Avamar influye más fácil y directamente en los niveles de capacidad del usuario.

1. Asegúrese de que la recolección de elementos no utilizados se ejecute todos los días y que los respaldos no la interrumpan.


Este es el punto más crítico, ya que incluso un sistema de tamaño adecuado experimentará rápidamente una alta capacidad del usuario si la recolección de elementos no utilizados no se ejecuta de manera regular o confiable.

Como se mostró antes, confirme que la ventana de mantenimiento esté habilitada y utilice los scripts capacity.sh y sched.sh para verificar que la recolección de elementos no utilizados se esté ejecutando y que esté eliminando datos.

Antes de la versión 7.x de Avamar, los respaldos no se podían ejecutar durante la ventana de "restricción" de recolección de elementos no utilizados.

La función Hash Referenced Bit Maps introducida en la versión 7.x de Avamar permite que los respaldos se realicen durante la actividad de mantenimiento de la recolección de elementos no utilizados. Esta característica requiere que estos "mapas" tengan al menos 5 minutos de "inactividad" por día durante los cuales no se ejecutan respaldos para que puedan restablecerse.

Se puede acceder al contenido sobre esta función mediante el enlace al artículo Avamar: A partir de la versión 7 de Avamar, la recolección de elementos no utilizados informa "Hashes omitidos" que no se pueden limpiar debido a "Hash Referenced Bit Maps" cuando los datos están en uso.


2. Deje de agregar nuevos clientes a la red.
 


Cuando una red Avamar se acerca a su capacidad máxima, debemos detener inmediatamente la incorporación de nuevos clientes para evitar que la situación empeore.

Si dispone de otra red Avamar que funcione con un nivel de utilización del servidor más bajo, plantéese agregar nuevos clientes a esa red en lugar de la que se está llenando.


3. Descubra qué clientes consumen más espacio de almacenamiento.

Para solucionar un problema de capacidad, debemos identificar qué clientes son responsables de agregar la mayor cantidad de datos al sistema Avamar.

El script capacity.sh (que se ejecuta desde la línea de comandos del nodo de utilidad de Avamar) también se puede utilizar para identificar qué clientes tienen la tasa de cambio más alta.

Los usuarios registrados de Dell pueden acceder al contenido mediante el enlace al artículo Avamar: Cómo administrar la capacidad con el script capacity.sh para obtener más detalles sobre cómo usar el script capacity.sh.

A menudo se descubre que los clientes que más capacidad consumen son aquellos que respaldan bases de datos SQL o servidores de correo electrónico, por lo que se debe prestar especial atención a estos.


4. Vuelva a evaluar las políticas de retención.
 

Después de identificar a los clientes con una tasa alta de cambios, vuelva a evaluar las políticas de retención para ver si alguna se puede reducir para disminuir los requisitos de almacenamiento a un nivel aceptable.

Nota: Se recomienda que las políticas de retención se establezcan en al menos 14 días.

Si el sistema tiene el tiempo suficiente como para haber comenzado a expirar los respaldos conservados durante más tiempo, entonces después de reducir las políticas de retención, esperamos ver un aumento en la cantidad de datos eliminados diariamente por la recolección de elementos no utilizados. Controle esta tendencia con capacity.sh.

Si el sistema Avamar aún no es lo suficientemente antiguo como para haber comenzado a expirar los respaldos, es posible que sea necesario modificar las políticas de retención para que los respaldos más antiguos comiencen a expirar.

Si no es posible reducir las políticas de retención debido a requisitos normativos, debe considerar expandir el sistema Avamar o migrar clientes a otro sistema Avamar menos utilizado.


5. Migre clientes a un sistema Avamar alternativo.


Si hay otro sistema Avamar, evalúe la posibilidad de migrar clientes grandes o con una alta tasa de cambio desde sistemas más utilizados a otros menos utilizados a través de la interfaz del Avamar Client Manager.

Nota:
  • El nuevo Avamar Server necesita almacenamiento suficiente para los clientes de Avamar que desea migrar.
  • Mantenga a los clientes con un tipo de datos similar en el mismo sistema Avamar para aprovechar las eficiencias de deduplicación.
  • Esta estrategia se utiliza mejor cuando los sistemas Avamar se encuentran en la misma red de área local.


6. Elimine los respaldos antiguos.
 

Si el nivel de capacidad del usuario es grave (>90 %), es posible que sea necesario caducar los respaldos antiguos a través de la interfaz de administración de respaldos o con la herramienta modify-snapups

Los usuarios de Dell pueden acceder al contenido mediante el enlace al artículo Administración de capacidad de Avamar: Cómo eliminar o hacer caducar respaldos de forma masiva con la herramienta "modify-snapups".

La eliminación de respaldos no reduce inmediatamente el nivel de utilización del servidor. Lo que hace es permitir que la recolección de elementos no utilizados comience a eliminar los datos la próxima vez que se ejecute. La eliminación de respaldos antiguos es una solución alternativa a corto plazo. Los respaldos se reemplazarán en los próximos días. Si se eliminan respaldos, es fundamental ajustar también las políticas de retención.


7. Controle el cambio de datos mediante capacity.sh.
 

Después de eliminar los respaldos y cambiar las políticas de retención, controle de cerca la cantidad de datos modificados en el sistema mediante el script capacity.sh. Debería comenzar a ver que el valor de los datos "eliminados" aumenta y el valor de "Net Change" debería volverse negativo. Finalmente, a medida que se borran los datos en exceso del sistema, el valor "Removed" comenzará a volver a niveles más normales. Siga controlando el valor "Removed".

Si el valor de cambio neto no es negativo, revise el registro de la recolección de elementos no utilizados para ver cuánto tiempo se ejecuta la recolección de elementos no utilizados y cuánto trabajo logra dentro de la ventana de mantenimiento.

Los usuarios de Dell pueden acceder al contenido mediante el enlace al artículo Avamar: Cómo administrar la capacidad con el script capacity.sh para obtener más información sobre cómo usar el script capacity.sh.


8. Expanda el sistema Avamar:


La alta utilización en el sistema Avamar a menudo se debe a un crecimiento natural y esperado de los datos. Se debe liberar más espacio para continuar con los respaldos de producción.

La forma en que se puede hacer esto depende del tipo de sistema Avamar.

  • Sistemas de nodo único y sistemas Avamar Virtual Edition (AVE)

Estos no se pueden expandir. Encargue un segundo sistema Avamar más grande y solicite a Dell Professional Services que realice una migración del sistema más pequeño al más grande. Los servicios profesionales se pueden contratar a través del ejecutivo de cuentas de Dell.

El sistema nuevo puede ser un sistema de nodo único, AVE o de múltiples nodos, si proporciona más espacio de almacenamiento que el sistema original.

  • Sistemas de múltiples nodos

Estos sistemas se pueden expandir hasta 16 nodos de datos. Comuníquese con el ejecutivo de cuentas de Dell para obtener más información. Los canales de soporte habituales no realizan adiciones de nodos, por lo que no se debe abrir una solicitud de servicio para pedir este trabajo.

  • Integrar Data Domain

Integrar un sistema Data Domain como dispositivo de almacenamiento de backend es una forma útil de ampliar la capacidad disponible para los clientes que realizan respaldos en Avamar. Analice las opciones con su ejecutivo de cuentas de Dell.

 

其他信息

Herramientas útiles

  • status.dpn
  • capacity.sh
  • Avalanche
  • Informe de resumen de DPN
  • replcnt.sh
  • Administrador de Avamar Client


Prácticas recomendadas:

  • Intente evitar que el valor de utilización (capacidad del usuario) de Avamar Server supere el 80 %.
  • Una menor capacidad del usuario proporciona resiliencia contra cambios inesperados en la cantidad de datos agregados y puede proteger al sistema para que no se vuelva inutilizable en caso de fallas imprevistas o problemas a corto plazo durante las tareas de mantenimiento.
  • Un sistema Avamar que se ejecuta por encima del 80 % de la capacidad del usuario requiere un monitoreo más diligente por parte del administrador del sistema para garantizar que las tareas de mantenimiento se completen correctamente y que el sistema no pase al modo de solo lectura.

受影响的产品

Avamar

产品

Avamar
文章属性
文章编号: 000079977
文章类型: Solution
上次修改时间: 07 6月 2024
版本:  18
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。