PowerFlex 3.x: MDM zpanikaří na adrese Function rpl_transmit_mgr.c
Summary: V procesu správy mobilních zařízení (MDM) neustále panikaří kvůli replikaci
Symptoms
V tomto případě byla úroveň kódu lokality replikace na úrovni 3.x a úroveň kódu cílové lokality byla na úrovni 4.x, problém se však může týkat všech systémů 3.x.
Na straně úložiště nebyly provedeny žádné změny.
Proces MDM neustále panikaří s následujícím trasováním zásobníku:
2024/11/24 05:51:06.186359 Panic in file /data/build/workspace/ScaleIO-Common-Job/src/mdm/replication/consistency_engine/rpl_transmit_mgr.c, line 833, function rplTransmitManager_ProcessRequestsForTimelinesRFD, PID 19477.Panic Expression ALWAYS_ASSERT . /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(mosDbg_PanicPrepare+0x13a) [0xabf1ba] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(rplTransmitManager_ProcessRequestsForTimelinesRFD+0x1f0) [0x880da0] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(consistencyEngine_AnalyzeTimelines+0x7b) [0x7f2ebb] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(consistencyEngine_AnalayzerUmtIteration+0x3c) [0x60d96c] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(consistencyEngine_AnalayzerUmtRoutine+0x33) [0x60da43] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(mosUmt_StartFunc+0x7a) [0x69a9fa] /lib64/libc.so.6(+0x48190) [0x7ff82e834190] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(mosUmt_Init+0x129) [0x8f5e89] [(nil)]
Dopad:
Cluster MDM je mimo provoz, což má za následek nedostupnost dat (DU).
Cause
Problém byl identifikován jako závada softwarového kódu ve verzi 3.x, která způsobila paniku MDM. Kvůli této závadě přesáhla přenášená data během replikace vynucený limit 200 GiB. Kvůli nadměrnému počtu požadavků měly MDM potíže s jejich zpracováním, což vedlo k nestabilitě a nakonec panice.
V tomto konkrétním případě byla vysoce přenášená data výsledkem příkazu trim systému Windows SDC, k problému však mohlo dojít kvůli jakémukoli přenosu velkých objemů dat.
Resolution
Tento problém se softwarem byl v nejnovějších verzích vyřešen. Chcete-li tento problém trvale vyřešit, doporučujeme upgradovat na verzi 4.5.x nebo novější, aby byla zajištěna stabilita před obnovením replikace:
- Zastavte SDR na všech uzlech.
To dočasně vyřeší paniku. - Pozastavení nebo zastavení všech skupin konzistence replikace (RCG) a párů replikace.
- Proveďte upgrade na nejnovější verzi 4.5.x nebo novější.
- Po dokončení upgradu pokračujte v replikaci.
Dotčené verze:
PowerFlex 3.x
Opraveno ve verzi:
PowerFlex 4.5