PowerFlex 3.x : Le MDM panique au niveau de la fonction rpl_transmit_mgr.c
Summary: Le processus MDM (Mobile Device Management) présente un fonctionnement inattendu en permanence en raison de la réplication
Symptoms
Dans ce cas, le niveau de code du site de réplication était à 3.x et le niveau de code du site de destination était à 4.x. Toutefois, le problème peut avoir un impact sur tous les systèmes 3.x.
Aucune modification n’a été apportée côté stockage.
Le processus MDM présente un fonctionnement inattendu continu avec la trace de pile suivante :
2024/11/24 05:51:06.186359 Panic in file /data/build/workspace/ScaleIO-Common-Job/src/mdm/replication/consistency_engine/rpl_transmit_mgr.c, line 833, function rplTransmitManager_ProcessRequestsForTimelinesRFD, PID 19477.Panic Expression ALWAYS_ASSERT . /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(mosDbg_PanicPrepare+0x13a) [0xabf1ba] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(rplTransmitManager_ProcessRequestsForTimelinesRFD+0x1f0) [0x880da0] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(consistencyEngine_AnalyzeTimelines+0x7b) [0x7f2ebb] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(consistencyEngine_AnalayzerUmtIteration+0x3c) [0x60d96c] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(consistencyEngine_AnalayzerUmtRoutine+0x33) [0x60da43] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(mosUmt_StartFunc+0x7a) [0x69a9fa] /lib64/libc.so.6(+0x48190) [0x7ff82e834190] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(mosUmt_Init+0x129) [0x8f5e89] [(nil)]
Impact:
Le cluster MDM est arrêté, ce qui entraîne l’indisponibilité des données (DU).
Cause
Le problème a été identifié comme un défaut du code logiciel dans la version 3.x, ce qui a provoqué un fonctionnement inattendu des MDM. En raison de ce défaut, les données transmises ont dépassé la limite imposée de 200 Gio lors de la réplication. En raison d’un nombre excessif de demandes, les MDM ont eu du mal à les traiter, ce qui a entraîné une instabilité et, finalement, un fonctionnement inattendu.
Dans ce cas spécifique, les données hautement transmises étaient le résultat d’une commande TRIM du SDC Windows. Toutefois, le problème pouvait être observé en raison d’une transmission de données volumineuse.
Resolution
Ce problème logiciel a été résolu dans les dernières versions. Pour résoudre définitivement le problème, il est recommandé d’effectuer une mise à niveau vers la version 4.5.x ou une version ultérieure afin de garantir la stabilité avant de reprendre la réplication :
- Arrêtez les SDR sur tous les nœuds.
Cela résout temporairement la panique. - Suspendez ou arrêtez tous les groupes de cohérence de réplication (RCG) et les paires de réplication.
- Mettez à niveau le système vers la dernière version 4.5.x ou ultérieure.
- Reprenez la réplication une fois la mise à niveau terminée.
Versions concernées :
PowerFlex 3.x
corrigé dans la version :
PowerFlex 4.5