PowerFlex 3.x: MDM raakt in paniek bij functie rpl_transmit_mgr.c
Summary: MDM-proces (Mobile Device Management) raakt voortdurend in paniek als gevolg van replicatie
Symptoms
In dit geval was het codeniveau van de replicatiesite 3.x en het codeniveau van de doelsite 4.x, maar het probleem kan gevolgen hebben voor 3.x-systemen.
Aan de opslagzijde zijn geen wijzigingen aangebracht.
Het MDM-proces raakt voortdurend in paniek met de volgende stacktrace:
2024/11/24 05:51:06.186359 Panic in file /data/build/workspace/ScaleIO-Common-Job/src/mdm/replication/consistency_engine/rpl_transmit_mgr.c, line 833, function rplTransmitManager_ProcessRequestsForTimelinesRFD, PID 19477.Panic Expression ALWAYS_ASSERT . /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(mosDbg_PanicPrepare+0x13a) [0xabf1ba] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(rplTransmitManager_ProcessRequestsForTimelinesRFD+0x1f0) [0x880da0] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(consistencyEngine_AnalyzeTimelines+0x7b) [0x7f2ebb] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(consistencyEngine_AnalayzerUmtIteration+0x3c) [0x60d96c] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(consistencyEngine_AnalayzerUmtRoutine+0x33) [0x60da43] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(mosUmt_StartFunc+0x7a) [0x69a9fa] /lib64/libc.so.6(+0x48190) [0x7ff82e834190] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(mosUmt_Init+0x129) [0x8f5e89] [(nil)]
Impact:
Het MDM-cluster is buiten werking, wat resulteert in data die niet beschikbaar zijn (DU).
Cause
Het probleem werd geïdentificeerd als een softwarecodefout in versie 3.x, waardoor de MDM's in paniek raakten. Door dit defect overschreden de verzonden data tijdens de replicatie de opgelegde limiet van 200 GiB. Door buitensporige verzoeken hadden de MDM's moeite om ze te verwerken, wat resulteerde in instabiliteit en uiteindelijk paniek.
In dit specifieke geval waren de sterk verzonden gegevens het gevolg van een Windows SDC-trimopdracht, maar het probleem kon worden gezien als gevolg van een grote gegevensoverdracht.
Resolution
Dit softwareprobleem is opgelost in de nieuwste versies. Om het probleem permanent op te lossen, wordt aanbevolen om te upgraden naar 4.5.x of hoger om stabiliteit te garanderen voordat u de replicatie hervat:
- Stop SDR's op alle knooppunten.
Hierdoor wordt de paniek tijdelijk opgelost. - Alle replicatieconsistentiegroepen (RCG's) en replicatieparen onderbreken of stoppen.
- Upgrade het systeem naar de nieuwste versie 4.5.x of hoger.
- Hervat de replicatie na voltooiing van de upgrade.
Versies waarop dit van toepassing is:
PowerFlex 3.x
opgelost in versie:
PowerFlex 4.5