PowerFlex 3.x: MDM-Fehler bei Funktion rpl_transmit_mgr.c
Summary: Der MDM-Prozess (Mobile Device Management) weist aufgrund der Replikation kontinuierlich Fehler auf
Symptoms
In diesem Fall lag die Codeebene des Replikationsstandorts bei 3.x und die Codeebene des Zielstandorts bei 4.x. Das Problem kann sich jedoch auf alle 3.x-Systeme auswirken.
Auf der Storage-Seite wurden keine Änderungen vorgenommen.
Der MDM-Prozess weist kontinuierlich Fehler mit dem folgenden Stack Trace auf:
2024/11/24 05:51:06.186359 Panic in file /data/build/workspace/ScaleIO-Common-Job/src/mdm/replication/consistency_engine/rpl_transmit_mgr.c, line 833, function rplTransmitManager_ProcessRequestsForTimelinesRFD, PID 19477.Panic Expression ALWAYS_ASSERT . /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(mosDbg_PanicPrepare+0x13a) [0xabf1ba] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(rplTransmitManager_ProcessRequestsForTimelinesRFD+0x1f0) [0x880da0] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(consistencyEngine_AnalyzeTimelines+0x7b) [0x7f2ebb] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(consistencyEngine_AnalayzerUmtIteration+0x3c) [0x60d96c] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(consistencyEngine_AnalayzerUmtRoutine+0x33) [0x60da43] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(mosUmt_StartFunc+0x7a) [0x69a9fa] /lib64/libc.so.6(+0x48190) [0x7ff82e834190] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(mosUmt_Init+0x129) [0x8f5e89] [(nil)]
Aufprall:
Der MDM-Cluster ist ausgefallen, was dazu führt, dass Daten nicht verfügbar sind (DU).
Cause
Das Problem wurde als Softwarecodefehler in Version 3.x identifiziert, der dazu führte, dass die MDMs einen Fehler verursachten. Aufgrund dieses Fehlers haben die übertragenen Daten während der Replikation den erzwungenen Grenzwert von 200 GiB überschritten. Aufgrund übermäßiger Anfragen hatten die MDMs Schwierigkeiten, diese zu verarbeiten, was zu Instabilität und schließlich Panik führte.
In diesem speziellen Fall waren die hochgradig übertragenen Daten das Ergebnis eines Windows-SDC-Trim-Befehls. Das Problem konnte jedoch aufgrund jeder großen Datenübertragung auftreten.
Resolution
Dieses Softwareproblem wurde in den neuesten Versionen behoben. Um das Problem dauerhaft zu beheben, wird empfohlen, ein Upgrade auf 4.5.x oder höher durchzuführen, um die Stabilität zu gewährleisten, bevor die Replikation fortgesetzt wird:
- Beenden Sie SDRs auf allen Nodes.
Dadurch wird der Fehler vorübergehend behoben. - Halten Sie alle Replikationskonsistenzgruppen (Replication Consistency Groups, RCGs) und Replikationspaare an oder beenden Sie sie.
- Aktualisieren Sie das System auf die neueste Version 4.5.x oder höher.
- Setzen Sie die Replikation nach Abschluss des Upgrades fort.
Betroffene Versionen:
PowerFlex 3.x
behoben in Version:
PowerFlex 4.5