PowerFlex 3.x: Errore irreversibile di MDM nella funzione rpl_transmit_mgr.c
Summary: Errore irreversibile del processo di gestione dei dispositivi mobili (MDM) a causa della replica
Symptoms
In questo caso, il livello di codice del sito di replica era 3.x e il livello di codice del sito di destinazione era 4.x, tuttavia il problema potrebbe influire su qualsiasi sistema 3.x.
Non sono state apportate modifiche sul lato storage.
Il processo MDM presenta continuamente un errore irreversibile con la seguente traccia dello stack:
2024/11/24 05:51:06.186359 Panic in file /data/build/workspace/ScaleIO-Common-Job/src/mdm/replication/consistency_engine/rpl_transmit_mgr.c, line 833, function rplTransmitManager_ProcessRequestsForTimelinesRFD, PID 19477.Panic Expression ALWAYS_ASSERT . /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(mosDbg_PanicPrepare+0x13a) [0xabf1ba] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(rplTransmitManager_ProcessRequestsForTimelinesRFD+0x1f0) [0x880da0] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(consistencyEngine_AnalyzeTimelines+0x7b) [0x7f2ebb] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(consistencyEngine_AnalayzerUmtIteration+0x3c) [0x60d96c] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(consistencyEngine_AnalayzerUmtRoutine+0x33) [0x60da43] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(mosUmt_StartFunc+0x7a) [0x69a9fa] /lib64/libc.so.6(+0x48190) [0x7ff82e834190] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(mosUmt_Init+0x129) [0x8f5e89] [(nil)]
Impatto:
Il cluster MDM è inattivo, con conseguente non disponibilità dei dati (DU).
Cause
Il problema è stato identificato come un difetto del codice software nella versione 3.x, che ha causato un errore irreversibile degli MDM. A causa di questo difetto, i dati trasmessi hanno superato il limite applicato di 200 GiB durante la replica. A causa delle richieste eccessive, gli MDM faticavano a elaborarle, determinando instabilità e infine panico.
In questo caso specifico, i dati trasmessi altamente erano il risultato di un comando trim SDC di Windows, tuttavia il problema poteva essere riscontrato a causa di una trasmissione di dati di grandi dimensioni.
Resolution
Questo problema software è stato risolto nelle versioni più recenti. Per risolvere definitivamente il problema, si consiglia di eseguire l'aggiornamento alla versione 4.5.x o successiva per garantire stabilità prima di riprendere la replica:
- Arrestare gli SDR su tutti i nodi.
In questo modo si risolve temporaneamente l'errore irreversibile. - Sospendere o arrestare tutti i consistency group di replica (RCG) e le coppie di replica.
- Aggiornare il sistema alla versione 4.5.x più recente o successiva.
- Riprendere la replica dopo aver completato l'upgrade.
Versioni interessate:
PowerFlex 3.x
risolto nella versione:
PowerFlex 4.5