PowerFlex: Reinicializar la replicación después de una interrupción de la replicación
Summary: Es posible que el grupo de coherencia de replicación se elimine por diversos motivos y que la replicación entre los sitios de origen y destino se detenga. El punto en común para todos los casos es el final de la capacidad del Diario. ...
Symptoms
En la línea de comandos, podemos encontrar mensajes de advertencia que indican "volúmenes en grupos de coherencia de replicación dañados".
# scli --query_all_replication_pairs
query_all_replication_pairs returned 0 Replication Pairs.
WARNING: The System contains 2 volumes in broken replication consistency groups
# scli --query_all_replication_consistency_groups
Protection Domain aef4ce8300000000 Name: RHEL7-PD
WARNING: The Protection Domain contains 2 volumes in broken replication consistency groups
En la interfaz de usuario de, el estado de los grupos de coherencia de replicación (RCG) muestra el siguiente error "El sistema eliminó los RCG".

El propósito de esos archivos de registro es permitir la reinicialización sin problemas de la replicación entre los sitios. Los archivos de registro se utilizan para reiniciar rápidamente el proceso de replicación después de que se resuelve la causa de la interrupción.
Cause
Ejemplos de motivos que podrían provocar la interrupción de la replicación:
a. Falla de red prolongada entre los sitios
de origen y destinob. Disminución repentina de la capacidad en los sitios de origen o destino, por ejemplo, en un escenario de datos no disponibles (DU)
Una vez interrumpida la replicación, el MDM eliminará automáticamente todos los grupos de coherencia de replicación (RCG) entre los sitios fuente y objetivo. Y genera archivos de registro de replicación que contienen toda la información relacionada con los RCG eliminados.
Resolution
un. Ubique los archivos de registro de interrupciones de replicación de generación automática en el MDM principal con el siguiente formato:
Auto DeletedOnEndOfJournalCapacityRplCg_<RCG_ID>_<RCG_name>
Ejemplo:
# cd /opt/emc/scaleio/mdm/logs
# ls -l AutoDelete*
-rw-r--r-- 1 root root 953 Apr 14 12:15 AutoDeletedOnEndOfJournalCapacityRplCg_4ca1bc9600000000_Rep_Beta1
b. Valide que se haya solucionado el problema que causó la interrupción de la replicación.
c. Reinicialice la replicación mediante uno de los siguientes dos métodos: Mediante el script o manualmente.
Mediante el script:
-
Genere un archivo que tenga todos los comandos pertinentes de los archivos de registro generados automáticamente para reinicializar la replicación
Ejemplo:
for i in `ls /opt/emc/scaleio/mdm/logs/AutoDeletedOnEndOfJournalCapacity*`;do sed -e '1,/Recreation CLIs/d' $i >> full_replication_restore_$(date +%s); done -
Valide que el archivo se creó correctamente y su contenido
Ejemplo:
[root@112AX-7 logs]# cat full_replication_restore_1587387678 scli --add_replication_consistency_group --replication_consistency_group_name rcg_sanity --destination_system_object_id 416af83800000000 --protection_domain_id b3dd0a5900000000 --remote_protection_domain_id 4ff0744e00000000 --rpo 60 --target_volume_access_mode no_access scli --add_replication_pair --replication_consistency_group_name rcg_sanity --source_volume_id 0da61f0d00000003 --destination_volume_id 1981bbaf00000005 --copy_type full scli --add_replication_consistency_group --replication_consistency_group_name rcg_SANITY2 --destination_system_object_id 416af83800000000 --protection_domain_id b3dd0a5900000000 --remote_protection_domain_id 4ff0744e00000000 --rpo 60 --target_volume_access_mode no_access scli --add_replication_pair --replication_consistency_group_name rcg_SANITY2 --source_volume_id 0da61f2500000000 --destination_volume_id 1981bbb000000006 --copy_type full scli --add_replication_consistency_group --replication_consistency_group_name rcg_sanity3 --destination_system_object_id 416af83800000000 --protection_domain_id b3dd0a5900000000 --remote_protection_domain_id 4ff0744e00000000 --rpo 60 --target_volume_access_mode no_access scli --add_replication_pair --replication_consistency_group_name rcg_sanity3 --source_volume_id 0da61f2600000001 --destination_volume_id 1981bbb100000007 --copy_type full [root@112AX-7 logs]# -
Haga que el archivo generado sea ejecutable, inicie sesión como administrador en el MDM principal y ejecute el archivo creado.
Ejemplo:
# scli --login --username admin --password xxxxxxxxxx Logged in. User role is SuperUser. System ID is xxxxxxxxxxxxxxx # # chmod +x full_replication_restore_1587387678 ; ./full_replication_restore_1587387678 Successfully created Replication Consistency Group rcg_sanity. Object ID 357a6c4f00000001 Successfully created the Pair, ID = a1f1819900000001 Successfully created Replication Consistency Group rcg_SANITY2. Object ID 357a6c5300000003 Successfully created the Pair, ID = a1f1819a00000002 Successfully created Replication Consistency Group rcg_sanity3. Object ID 357a6c5500000005 Successfully created the Pair, ID = a1f1819b00000003 - Valide que la replicación se haya creado correctamente mediante la ejecución de
-
scli --query_all_replication_consistency_groups scli --query_all_replication_pairs
-
Manualmente:
-
Compruebe que cada RCG eliminado automáticamente tenga un archivo de registro generado automáticamente:
Ejemplo:
# ls /opt/emc/scaleio/mdm/logs/AutoDeletedOnEndOfJournalCapacity* /opt/emc/scaleio/mdm/logs/AutoDeletedOnEndOfJournalCapacityRplCg_357a454600000001_rcg_sanity /opt/emc/scaleio/mdm/logs/AutoDeletedOnEndOfJournalCapacityRplCg_357a6c4b00000002_rcg_SANITY2 /opt/emc/scaleio/mdm/logs/AutoDeletedOnEndOfJournalCapacityRplCg_357a6c4c00000003_rcg_sanity3 -
Repita los siguientes pasos para cada archivo de la lista en el paso 1 anterior a
. Compruebe que se hayan generado los comandos de la CLI y valide que tenga la información pertinente en las CLI de recreaciónEjemplo:
#cat AutoDeletedOnEndOfJournalCapacityRplCg_357a6c4900000001_rcg_sanity REPLICATION CONSISTENCY GROUP LocalId:357a6c4900000001 RemoteId:4ca1e3ab00000001 Name:rcg_sanity PeerMdmId:416af83800000000 RpoSeconds:60 Direction:LOCAL_TO_REMOTE DRState:NONE DeletionDecisionTime:20/04 08:37:35 DeletionReason:AUTOMATIC_ON_END_OF_CAPACITY FailureDomainId:b3dd0a5900000000 RemoteFailureDomainId:4ff0744e00000000 PAIR 0 LocalId:a1f1819600000001 RemoteId:2dfad1c100000001 LocalVolumeId:0da61f0d00000003 LocalVolumeName:test1 RemoteVolumeId:1981bbaf00000005 RemoteVolumeName:test1 Recreation CLIs: scli --add_replication_consistency_group --replication_consistency_group_name rcg_sanity --destination_system_object_id 416af83800000000 --protection_domain_id b3dd0a5900000000 --remote_protection_domain_id 4ff0744e00000000 --rpo 60 --target_volume_access_mode no_access scli --add_replication_pair --replication_consistency_group_name rcg_sanity --source_volume_id 0da61f0d00000003 --destination_volume_id 1981bbaf00000005 --copy_type fullb. Ejecute todos los comandos que aparecen en la sección "Recreation CLIs"
Ejemplo:
# scli --add_replication_consistency_group --replication_consistency_group_name rcg_sanity --destination_system_object_id 416af83800000000 --protection_domain_id b3dd0a5900000000 --remote_protection_domain_id 4ff0744e00000000 --rpo 60 --target_volume_access_mode no_access Successfully created Replication Consistency Group rcg_sanity. Object ID 357a6c4f00000001 [root@112AX-7 logs]# scli --add_replication_pair --replication_consistency_group_name rcg_sanity --source_volume_id 0da61f0d00000003 --destination_volume_id 1981bbaf00000005 --copy_type full Successfully created the Pair, ID = a1f1819900000001 [root@112AX-7 logs]# -
Valide que la replicación se haya creado correctamente mediante la ejecución de
-
scli --query_all_replication_consistency_groups scli --query_all_replication_pairs
-