PowerFlex : Erreurs d’IO du client lors de l’utilisation de la réplication
Summary: Les serveurs clients rencontrent des erreurs d’E/S sur les appareils soutenus par PowerFlex. Le back-end global (MDM et SDS) semble fonctionnel. La réplication PowerFlex est en cours d’utilisation et il existe des erreurs de RPO sur un ou plusieurs des RCG. ...
Symptoms
- Aucune capacité dégradée ou défaillante
- Aucun SDS n’a été découplé et aucun appareil SDS n’a signalé d’erreur
- Aucun MDM déconnecté
- La fonctionnalité de réplication est en cours d’utilisation
Une ou plusieurs alertes dans l’interface utilisateur signalent les erreurs suivantes :
Minor - Remote Consistency Group RPO Exceeded
Major - The RCG consistent image is too large to be consumed by the destination in one piece.
Les journaux d’événements MDM peuvent signaler les éléments suivants :
2024-06-11 15:55:56.592000:0001566:RPL_PD_CAP_UTILIZATION_MINOR WARNING Protection Domain ID <pd_id> Replication journal capacity is at MINOR utilization level
...
2024-06-11 16:20:12.848000:0001567:RPL_PD_CAP_UTILIZATION_MAJOR ERROR Protection Domain ID <pd_id> Replication journal capacity is at MAJOR utilization level
...
2024-06-11 17:19:57.272000:0001584:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at VERY_HIGH utilization level
...
2024-06-11 17:52:26.352000:0001585:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at CRITICAL utilization level
...
2024-06-11 16:25:14.381000:0001576:RPL_CG_MOVED_TO_SLIM_MODE INFO Replication Consistency Group ID <rcg_id> entered slim mode
...
2024-06-11 18:27:29.738000:0001586:SDR_CRITICAL_CAP_CHANGE ERROR SDR ID <sdr_id>) handling user data changed discarded old user data and stopped to accumulate new user data due critical capacity
Impact
Les clients ne peuvent pas accéder aux volumes qui sont en cours de réplication.
Cause
Un défaut logiciel rare peut se produire lorsque le MDM et le composant SDR ne sont pas d’accord sur les compteurs internes liés à la capacité du journal.
Cette divergence peut entraîner l’échec de l’annulation (libération) de la capacité de journal supplémentaire du MDM lorsque la capacité du SDR est saturée, ce qui peut entraîner des erreurs d’E/S sur les serveurs clients utilisant des appareils sauvegardés par PowerFlex.
Resolution
Un redémarrage répété de tous les composants SDR est nécessaire, et la propriété du MDM sur le système source doit être basculée pour résoudre le problème.
Redémarrer les composants SDR sur le site cible
1. Identifiez tous les SDR et vérifiez qu’ils sont en bon état avant de passer à l’étape 2 :
scli --query_all_sdr
2. Passez en mode maintenance sur le SDR :
scli --enter_sdr_maintenance_mode --sdr_name <name>
3. Vérifiez que le SDR est en mode maintenance en exécutant la commande à l’étape 1.
4. Redémarrer le composant SDR
pkill sdr
5. Répétez les étapes 1 à 4 pour tous les SDR sur le site source .
6. Exit SDRs from maintenance mode :
scli --exit_sdr_maintenance_mode --sdr_name <name>
7. Changez la propriété du MDM, une fois que tous les SDR sont redémarrés et sont dans un état sain :
#3.x
scli --switch_mdm_ownership --new_master_mdm_name <name>
#4.x
scli --switch_mdm_ownership --new_primary_mdm_name <name>
8. Vérifiez que les erreurs d’E/S sur les serveurs clients ne sont plus signalées. Si le client est entré dans un système de fichiers en lecture seule, le serveur client peut nécessiter un redémarrage.
Versions affectées
PowerFlex 3.x
PFMP 4.x
Problème résolu dans la version
PowerFlex 4.5.3
PowerFlex 4.5.4 - mise à niveau vers 4.5.4 HF1
PowerFlex 4.5.5 - aucun correctif disponible
PowerFlex 4.5.6 et versions ultérieures
Additional Information
Versions affectées
PowerFlex 3.x
PowerFlex 4.x
Problème résolu dans la version
PowerFlex 4.5.3
PowerFlex 4.5.4 : mise à niveau vers la version 4.5.4HF1 PowerFlex 4.5.5 : aucun correctif disponible.
PowerFlex 4.5.6 et versions ultérieures