PowerFlex 3.x: MDM панікує під час роботи rpl_transmit_mgr.c
Summary: Процес керування мобільними пристроями (MDM) постійно панікує через реплікацію
Symptoms
У цьому випадку рівень коду сайту реплікації був 3.x, а рівень коду цільового сайту – 4.x, однак проблема може вплинути на будь-які системи 3.x.
З боку зберігання жодних змін не відбулося.
Процес MDM постійно панікує з такими трасуваннями стека:
2024/11/24 05:51:06.186359 Panic in file /data/build/workspace/ScaleIO-Common-Job/src/mdm/replication/consistency_engine/rpl_transmit_mgr.c, line 833, function rplTransmitManager_ProcessRequestsForTimelinesRFD, PID 19477.Panic Expression ALWAYS_ASSERT . /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(mosDbg_PanicPrepare+0x13a) [0xabf1ba] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(rplTransmitManager_ProcessRequestsForTimelinesRFD+0x1f0) [0x880da0] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(consistencyEngine_AnalyzeTimelines+0x7b) [0x7f2ebb] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(consistencyEngine_AnalayzerUmtIteration+0x3c) [0x60d96c] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(consistencyEngine_AnalayzerUmtRoutine+0x33) [0x60da43] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(mosUmt_StartFunc+0x7a) [0x69a9fa] /lib64/libc.so.6(+0x48190) [0x7ff82e834190] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(mosUmt_Init+0x129) [0x8f5e89] [(nil)]
Вплив:
Кластер MDM не працює, що призводить до недоступності даних (DU).
Cause
Проблему було визначено як дефект програмного коду у версії 3.x, що спричинило паніку в MDM. Через цей дефект передані дані перевищували встановлений ліміт у 200 ГіБ під час реплікації. Через надмірні запити MDM намагалися їх обробити, що призвело до нестабільності та, зрештою, до паніки.
У цьому конкретному випадку високо передані дані були результатом команди обрізки Windows SDC, однак проблему можна було побачити через будь-яку велику передачу даних.
Resolution
Цю проблему з програмним забезпеченням вирішено в останніх версіях. Щоб остаточно вирішити проблему, рекомендовано оновити її до версії 4.5.x або пізнішої, щоб забезпечити стабільність перед відновленням реплікації:
- Зупиніть SDR на всіх вузлах.
Це тимчасово знімає паніку. - Призупиніть або зупиніть усі групи узгодженості реплікації (RCG) і пари реплікації.
- Оновіть систему до останньої версії 4.5.x або пізнішої.
- Відновіть реплікацію після завершення оновлення.
Версії, на які це вплинуло:
Виправлено PowerFlex 3.x
у версії:
PowerFlex 4.5