PowerFlex 3.x. Сбой MDM в функции rpl_transmit_mgr.c
Summary: Процесс управления мобильными устройствами (MDM) постоянно дает сбой из-за репликации
Symptoms
В этом случае уровень кода площадки репликации был 3.x, а уровень кода целевой площадки — 4.x, однако эта проблема может затронуть любые системы 3.x.
На стороне системы хранения изменений не внесено.
Процесс MDM постоянно вызывает панику со следующей трассировкой стека:
2024/11/24 05:51:06.186359 Panic in file /data/build/workspace/ScaleIO-Common-Job/src/mdm/replication/consistency_engine/rpl_transmit_mgr.c, line 833, function rplTransmitManager_ProcessRequestsForTimelinesRFD, PID 19477.Panic Expression ALWAYS_ASSERT . /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(mosDbg_PanicPrepare+0x13a) [0xabf1ba] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(rplTransmitManager_ProcessRequestsForTimelinesRFD+0x1f0) [0x880da0] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(consistencyEngine_AnalyzeTimelines+0x7b) [0x7f2ebb] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(consistencyEngine_AnalayzerUmtIteration+0x3c) [0x60d96c] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(consistencyEngine_AnalayzerUmtRoutine+0x33) [0x60da43] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(mosUmt_StartFunc+0x7a) [0x69a9fa] /lib64/libc.so.6(+0x48190) [0x7ff82e834190] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(mosUmt_Init+0x129) [0x8f5e89] [(nil)]
Удар:
Кластер MDM не работает, что приводит к недоступности данных (DU).
Cause
Проблема была идентифицирована как дефект программного кода в версии 3.x, который вызвал панику MDM. Из-за этой дефектной способности передаваемые данные во время репликации превышали установленный предел в 200 ГиБ. Из-за чрезмерного количества запросов MDM изо всех сил пытались их обработать, что приводило к нестабильности и, в конечном счете, к панике.
В этом конкретном случае передаваемые с высокой частотой данные были результатом выполнения команды Windows SDC trim, однако проблема могла наблюдаться при передаче большого объема данных.
Resolution
Эта проблема программного обеспечения устранена в последних версиях. Для окончательного решения проблемы рекомендуется выполнить модернизацию до версии 4.5.x или более поздней, чтобы обеспечить стабильность, перед возобновлением репликации.
- Остановите SDR на всех узлах.
Это временно устраняет панику. - Приостановите или остановите все группы консистентности репликации (RCG) и пары репликации.
- Обновите систему до последней версии 4.5.x или более поздней.
- Возобновите репликацию после завершения обновления.
Затронутые версии:
PowerFlex 3.x
Исправлено в версии:
PowerFlex 4.5