PowerFlex 3.x: MDM går i panik ved funktion rpl_transmit_mgr.c
Summary: MDM-processen (Mobile Device Management) går konstant i panik på grund af replikering
Symptoms
I dette tilfælde var replikeringsstedkodeniveauet på 3.x, og destinationswebstedskodeniveauet var på 4.x, men problemet kan påvirke alle 3.x-systemer.
Der er ikke foretaget ændringer på storagesiden.
MDM-processen går hele tiden i panik med følgende staksporing:
2024/11/24 05:51:06.186359 Panic in file /data/build/workspace/ScaleIO-Common-Job/src/mdm/replication/consistency_engine/rpl_transmit_mgr.c, line 833, function rplTransmitManager_ProcessRequestsForTimelinesRFD, PID 19477.Panic Expression ALWAYS_ASSERT . /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(mosDbg_PanicPrepare+0x13a) [0xabf1ba] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(rplTransmitManager_ProcessRequestsForTimelinesRFD+0x1f0) [0x880da0] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(consistencyEngine_AnalyzeTimelines+0x7b) [0x7f2ebb] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(consistencyEngine_AnalayzerUmtIteration+0x3c) [0x60d96c] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(consistencyEngine_AnalayzerUmtRoutine+0x33) [0x60da43] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(mosUmt_StartFunc+0x7a) [0x69a9fa] /lib64/libc.so.6(+0x48190) [0x7ff82e834190] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(mosUmt_Init+0x129) [0x8f5e89] [(nil)]
Indvirkning:
MDM-klyngen er nede, hvilket resulterer i, at data ikke er tilgængelige (DU).
Cause
Problemet blev identificeret som en softwarekodefejl i version 3.x, hvilket fik MDM'erne til at gå i panik. På grund af denne defekt overskred de overførte data den håndhævede grænse på 200 GiB under replikering. På grund af overdrevne anmodninger kæmpede MDM'erne med at behandle dem, hvilket resulterede i ustabilitet og i sidste ende panik.
I dette specifikke tilfælde var de stærkt transmitterede data et resultat af en Windows SDC-trimkommando, men problemet kunne ses på grund af enhver stor dataoverførsel.
Resolution
Dette softwareproblem er løst i de nyeste versioner. For permanent at løse problemet er anbefalingen at opgradere til 4.5.x eller nyere for at sikre stabilitet, før replikeringen genoptages:
- Stop SDR er på alle noder.
Dette løser midlertidigt panikken. - Sæt alle replikeringskonsistensgrupper (RCG'er) og replikeringspar på pause, eller stop dem.
- Opgrader systemet til den nyeste 4.5.x-version eller nyere.
- Genoptag replikeringen, når opgraderingen er fuldført.
Påvirkede versioner:
PowerFlex 3.x
fast i version:
PowerFlex 4.5