PowerFlex : Réinitialiser la réplication après une interruption de réplication
Summary: Le groupe de cohérence de réplication peut être supprimé pour différentes raisons, et la réplication entre les sites source et cible s’arrête. Le point commun à tous les cas est la fin de la capacité du journal. ...
Symptoms
Sur la ligne de commande, des messages d’avertissement indiquent « volumes dans des groupes de cohérence de réplication rompus ».
# scli --query_all_replication_pairs
query_all_replication_pairs returned 0 Replication Pairs.
WARNING: The System contains 2 volumes in broken replication consistency groups
# scli --query_all_replication_consistency_groups
Protection Domain aef4ce8300000000 Name: RHEL7-PD
WARNING: The Protection Domain contains 2 volumes in broken replication consistency groups
Dans l’interface utilisateur, l’état des groupes de cohérence de réplication (RCG) présente l’erreur suivante : « Les RCG ont été supprimés par le système ».

L’objectif de ces fichiers journaux est de permettre une réinitialisation en douceur de la réplication entre les sites. Les fichiers journaux sont utilisés pour redémarrer rapidement le processus de réplication une fois la cause de la panne résolue.
Cause
Exemples de raisons pouvant provoquer une interruption de la réplication :
a. Défaillance réseau longue entre les sites
source et cibleb. Diminution soudaine de la capacité sur les sites source ou cible, par exemple dans un scénario d’indisponibilité des données (DU)
Une fois la réplication interrompue, le MDM supprime automatiquement tous les groupes de cohérence de réplication (RCG) entre les sites source et cible. Il génère également des fichiers journaux de réplication qui contiennent toutes les informations relatives aux RCG supprimés.
Resolution
un. Localisez les fichiers log de rupture de réplication générés automatiquement sous le MDM principal au format suivant :
Auto-DeletedOnEndOfJournalCapacityRplCg_<RCG_ID>_<RCG_name>
Exemple :
# cd /opt/emc/scaleio/mdm/logs
# ls -l AutoDelete*
-rw-r--r-- 1 root root 953 Apr 14 12:15 AutoDeletedOnEndOfJournalCapacityRplCg_4ca1bc9600000000_Rep_Beta1
b. Vérifiez que le problème à l’origine de l’interruption de la réplication est résolu.
c. Réinitialisez la réplication en utilisant l’une des deux méthodes suivantes : À l’aide d’un script ou manuellement.
À l’aide du script :
-
Générez un fichier contenant toutes les commandes pertinentes à partir des fichiers log générés automatiquement afin de réinitialiser la réplication
Exemple :
for i in `ls /opt/emc/scaleio/mdm/logs/AutoDeletedOnEndOfJournalCapacity*`;do sed -e '1,/Recreation CLIs/d' $i >> full_replication_restore_$(date +%s); done -
Vérifiez que le fichier a bien été créé et que son contenu a été créé
Exemple :
[root@112AX-7 logs]# cat full_replication_restore_1587387678 scli --add_replication_consistency_group --replication_consistency_group_name rcg_sanity --destination_system_object_id 416af83800000000 --protection_domain_id b3dd0a5900000000 --remote_protection_domain_id 4ff0744e00000000 --rpo 60 --target_volume_access_mode no_access scli --add_replication_pair --replication_consistency_group_name rcg_sanity --source_volume_id 0da61f0d00000003 --destination_volume_id 1981bbaf00000005 --copy_type full scli --add_replication_consistency_group --replication_consistency_group_name rcg_SANITY2 --destination_system_object_id 416af83800000000 --protection_domain_id b3dd0a5900000000 --remote_protection_domain_id 4ff0744e00000000 --rpo 60 --target_volume_access_mode no_access scli --add_replication_pair --replication_consistency_group_name rcg_SANITY2 --source_volume_id 0da61f2500000000 --destination_volume_id 1981bbb000000006 --copy_type full scli --add_replication_consistency_group --replication_consistency_group_name rcg_sanity3 --destination_system_object_id 416af83800000000 --protection_domain_id b3dd0a5900000000 --remote_protection_domain_id 4ff0744e00000000 --rpo 60 --target_volume_access_mode no_access scli --add_replication_pair --replication_consistency_group_name rcg_sanity3 --source_volume_id 0da61f2600000001 --destination_volume_id 1981bbb100000007 --copy_type full [root@112AX-7 logs]# -
Rendez le fichier généré exécutable, puis connectez-vous en tant qu’administrateur au MDM principal et exécutez le fichier créé.
Exemple :
# scli --login --username admin --password xxxxxxxxxx Logged in. User role is SuperUser. System ID is xxxxxxxxxxxxxxx # # chmod +x full_replication_restore_1587387678 ; ./full_replication_restore_1587387678 Successfully created Replication Consistency Group rcg_sanity. Object ID 357a6c4f00000001 Successfully created the Pair, ID = a1f1819900000001 Successfully created Replication Consistency Group rcg_SANITY2. Object ID 357a6c5300000003 Successfully created the Pair, ID = a1f1819a00000002 Successfully created Replication Consistency Group rcg_sanity3. Object ID 357a6c5500000005 Successfully created the Pair, ID = a1f1819b00000003 - Vérifiez que la réplication a bien été créée en exécutant
-
scli --query_all_replication_consistency_groups scli --query_all_replication_pairs
-
Manuellement:
-
Vérifiez que chaque RCG supprimé automatiquement dispose d’un fichier log généré automatiquement :
Exemple :
# ls /opt/emc/scaleio/mdm/logs/AutoDeletedOnEndOfJournalCapacity* /opt/emc/scaleio/mdm/logs/AutoDeletedOnEndOfJournalCapacityRplCg_357a454600000001_rcg_sanity /opt/emc/scaleio/mdm/logs/AutoDeletedOnEndOfJournalCapacityRplCg_357a6c4b00000002_rcg_SANITY2 /opt/emc/scaleio/mdm/logs/AutoDeletedOnEndOfJournalCapacityRplCg_357a6c4c00000003_rcg_sanity3 -
Répétez les étapes suivantes pour chaque fichier de la liste à l’étape 1 ci-dessus
a. Vérifiez que les commandes CLI ont été générées et vérifiez qu’il contient les informations pertinentes sous CLI de loisirsExemple :
#cat AutoDeletedOnEndOfJournalCapacityRplCg_357a6c4900000001_rcg_sanity REPLICATION CONSISTENCY GROUP LocalId:357a6c4900000001 RemoteId:4ca1e3ab00000001 Name:rcg_sanity PeerMdmId:416af83800000000 RpoSeconds:60 Direction:LOCAL_TO_REMOTE DRState:NONE DeletionDecisionTime:20/04 08:37:35 DeletionReason:AUTOMATIC_ON_END_OF_CAPACITY FailureDomainId:b3dd0a5900000000 RemoteFailureDomainId:4ff0744e00000000 PAIR 0 LocalId:a1f1819600000001 RemoteId:2dfad1c100000001 LocalVolumeId:0da61f0d00000003 LocalVolumeName:test1 RemoteVolumeId:1981bbaf00000005 RemoteVolumeName:test1 Recreation CLIs: scli --add_replication_consistency_group --replication_consistency_group_name rcg_sanity --destination_system_object_id 416af83800000000 --protection_domain_id b3dd0a5900000000 --remote_protection_domain_id 4ff0744e00000000 --rpo 60 --target_volume_access_mode no_access scli --add_replication_pair --replication_consistency_group_name rcg_sanity --source_volume_id 0da61f0d00000003 --destination_volume_id 1981bbaf00000005 --copy_type fullb. Exécutez toutes les commandes qui s’affichent dans la section « Recreation CLIs ».
Exemple :
# scli --add_replication_consistency_group --replication_consistency_group_name rcg_sanity --destination_system_object_id 416af83800000000 --protection_domain_id b3dd0a5900000000 --remote_protection_domain_id 4ff0744e00000000 --rpo 60 --target_volume_access_mode no_access Successfully created Replication Consistency Group rcg_sanity. Object ID 357a6c4f00000001 [root@112AX-7 logs]# scli --add_replication_pair --replication_consistency_group_name rcg_sanity --source_volume_id 0da61f0d00000003 --destination_volume_id 1981bbaf00000005 --copy_type full Successfully created the Pair, ID = a1f1819900000001 [root@112AX-7 logs]# -
Vérifiez que la réplication a bien été créée en exécutant
-
scli --query_all_replication_consistency_groups scli --query_all_replication_pairs
-