Data Domain: Prácticas recomendadas para la migración de datos en sistemas PowerProtect Data Domain mediante la replicación de MTree
Summary: En este artículo, se analiza la preparación para migrar datos mediante la replicación de Mtree (MRepl) desde sistemas PowerProtect Data Domain (PPDD) heredados sin compatibilidad con tarjetas QAT internas. Por ejemplo, DD9500 y DD9800. Es fundamental tener en cuenta la carga de trabajo de la operación actual del sistema para evitar efectos secundarios inesperados que podrían afectar negativamente los resultados de la migración de datos. En este artículo, se ayuda a planificar las operaciones de migración que requieren una nueva configuración de contexto de replicación de Mtree (MRepl) mediante sistemas PPDD heredados como fuente. ...
Instructions
Con la introducción de las plataformas 16G, la migración de MTrees específicos de PPDD heredados a un sistema más nuevo es un requisito común.
El proceso de migración crea nuevos contextos de replicación de Mtree. Tenga en cuenta lo siguiente para garantizar una interrupción mínima.
- Carga de trabajo actual del sistema de operaciones de respaldo
- Diferencias en las funcionalidades de compresión (por ejemplo, compatibilidad con tarjetas QAT)
- Incorporación repentina de nuevas configuraciones de contexto de Mrepl
- Errores de hardware que afectan el proceso de recolección de elementos no utilizados (GC)
Para mantener la integridad de los datos y cumplir con los acuerdos de nivel de servicio, es posible que el sistema entre en una situación de pánico en ciertos umbrales operativos.
El mecanismo de pánico activa acciones de autocorrección para garantizar que el sistema funcione siempre de manera confiable.
Aquí se analizan estas consideraciones y se guía cómo evitar el tiempo de inactividad inesperado que puede interferir con los planes de migración.
Carga de trabajo actual del sistema de operaciones de respaldo:
Enfóquese inicialmente en las operaciones actuales del sistema. Antes de la migración, monitoree las métricas clave. Estas incluyen cargas de trabajo continuas, utilización de CPU, uso de memoria, estado de la red y alertas de hardware.
El objetivo es preservar el funcionamiento del sistema dentro de los parámetros normales.
Diferencias en las funcionalidades de compresión:
Mientras se prepara para la migración mediante la replicación de Mtree (Mrepl), tenga en cuenta la disparidad en las funcionalidades de compresión entre los sistemas.
Algunos sistemas heredados carecen de una tarjeta de compresión a bordo para ayudar con las operaciones relacionadas con la compresión.
Los sistemas DD9900, DD9400 o DD6900 permiten conectar una tarjeta QAT externa para acelerar las operaciones de compresión.
Cuando una tarjeta QAT no está presente (por ejemplo, DD9800, DD9500), depende de los recursos de CPU y memoria para las tareas de compresión y descompresión.
Cuando se configuran nuevos contextos de replicación sin compatibilidad con QAT, los datos se deben descomprimir primero.
Esto podría provocar un pico de uso de CPU durante la fase de inicialización de la replicación.
El origen comprueba el destino para identificar el tipo de tarjeta de compresión disponible.
Cuando un sistema 16G (DD9910, DD9410 o DD6410) es el destino, el origen debe descomprimir los datos del formato "gzfast" heredado. A continuación, debe comprimirlo al formato LZ.
Incorporación gradual de la nueva configuración de contexto de MREPL
Durante la recuperación ante desastres (DR), cuando se replican datos de un Data Domain a otro, los trabajos de replicación generalmente comienzan después de que se completa la ingesta de datos.
Esto garantiza que el sitio de destino reciba todos los datos replicados.
Cuando se definen nuevos contextos de replicación para la migración, el origen debe manejar datos significativos durante el inicio de la replicación.
Esto se debe a que el destino carece de datos desduplicados y la optimización aún no es posible. Esto da como resultado una mayor carga en el sistema de origen.
Para mitigar esto, cuando el sistema continúe procesando cargas de trabajo de respaldo (I/O), incorpore gradualmente los contextos de replicación asociados con la migración.
Defina un bajo rendimiento de replicación para limitar los recursos asignados a estos contextos de replicación relacionados con la migración.
Una vez que la replicación comience a crear optimizaciones en el destino y se validen los parámetros operacionales, agregue más contextos de replicación (migración). O bien, modifique el rendimiento de replicación en los existentes.
El objetivo es evitar la activación de los mecanismos de protección del sistema. Esto provoca estados de alarma del sistema que pueden afectar las migraciones.
Recuerde que las referencias de rendimiento del sistema se calculan en función de las cargas de trabajo en funcionamiento, no para cargas de trabajo nuevas.
Configure la regulación gradualmente durante los escenarios de migración.
El comando "replication throttle add" se puede utilizar para programar un punto en el tiempo específico y asignar un ancho de banda definido (en Mbps) para la limitación.
Inicie nuevos trabajos de replicación con un ancho de banda disponible limitado (menor regulación). Luego, evalúe el impacto en el funcionamiento del sistema.
Una vez que el trabajo de replicación está en curso, se puede aumentar la regulación para proporcionar ancho de banda adicional.
También se recomienda monitorear el análisis del sistema, incluido el consumo de CPU, memoria y red, disponible en DDSM.
Errores de hardware que afectan el proceso de recolección de elementos no utilizados (GC):
Otro factor que potencialmente puede causar la degradación del rendimiento del respaldo o la replicación está asociado con las fallas de hardware, especialmente durante las operaciones predeterminadas de recolección de elementos no utilizados. En condiciones operativas normales, el mecanismo de recolección de elementos no utilizados en los sistemas PPDD completa las actividades de reciclaje de espacio sin afectar las operaciones de ingesta, restauración o replicación. En ciertas situaciones, el sistema ofrece opciones para definir la regulación de la recolección de elementos no utilizados, lo que proporciona a los administradores del sistema un control adicional sobre cuándo ocurren los procesos de limpieza del sistema.
La configuración de regulación predeterminada para la recolección de elementos no utilizados no afecta los respaldos ni las restauraciones. La mayoría de las instancias en las que se observa un impacto están vinculadas a fallas de hardware. Por ejemplo, cuando ciertas unidades requieren reemplazo, las demandas continuas de I/O del sistema pueden ralentizar el almacenamiento de respaldos y restauraciones, lo que afecta las operaciones generales de GC.
El sistema operativo Data Domain proporciona mecanismos de alerta integrales para dichos problemas de hardware, lo que genera alertas proactivamente cuando se detectan estas condiciones. Esto facilita a los operadores de respaldo la resolución rápida de problemas relacionados con el hardware.
Otro factor importante que se debe tener en cuenta es que las actividades de replicación son tan importantes como el respaldo y la restauración. Por diseño, cada plataforma proporciona una cantidad fija de flujos para cada trabajo y puede procesar operaciones simultáneas bajo los límites definidos para cumplir con los acuerdos de nivel de servicio (SLA).
Conclusión:
La migración correcta de datos mediante la replicación de MTree requiere una consideración cuidadosa de lo siguiente:
- Monitoreo de la carga de trabajo actual del sistema a partir de las operaciones de respaldo
- Comprenda las plataformas heredadas, como DD9800 o DD9500
- Utilice un algoritmo de compresión diferente (gzfast).
- Cuando se crean nuevos contextos de replicación de MTree (MRepl) en un sistema en funcionamiento, incorpore gradualmente las nuevas configuraciones de contexto de Mrepl
- Monitoree de cerca el impacto de las nuevas cargas de trabajo en el sistema.
- Monitoree los posibles errores de hardware (que afectan las operaciones del proceso de recolección de elementos no utilizados).
Seguir estas prácticas recomendadas minimiza las interrupciones y mantiene la estabilidad del sistema.
La implementación de estas recomendaciones ayuda a evitar el tiempo de inactividad inesperado y facilita la migración de datos.