PowerFlex 3.x: MDM entra en estado de alarma en la función rpl_transmit_mgr.c
Summary: El proceso de administración de dispositivos móviles (MDM) entra continuamente en una situación de pánico debido a la replicación
Symptoms
En este caso, el nivel de código de sitio de replicación era 3.x y el nivel de código de sitio de destino era 4.x; sin embargo, el problema puede afectar a cualquier sistema 3.x.
No se han realizado cambios en el lado del almacenamiento.
El proceso de MDM entra continuamente en una situación de pánico con el siguiente seguimiento de la pila:
2024/11/24 05:51:06.186359 Panic in file /data/build/workspace/ScaleIO-Common-Job/src/mdm/replication/consistency_engine/rpl_transmit_mgr.c, line 833, function rplTransmitManager_ProcessRequestsForTimelinesRFD, PID 19477.Panic Expression ALWAYS_ASSERT . /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(mosDbg_PanicPrepare+0x13a) [0xabf1ba] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(rplTransmitManager_ProcessRequestsForTimelinesRFD+0x1f0) [0x880da0] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(consistencyEngine_AnalyzeTimelines+0x7b) [0x7f2ebb] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(consistencyEngine_AnalayzerUmtIteration+0x3c) [0x60d96c] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(consistencyEngine_AnalayzerUmtRoutine+0x33) [0x60da43] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(mosUmt_StartFunc+0x7a) [0x69a9fa] /lib64/libc.so.6(+0x48190) [0x7ff82e834190] /opt/emc/scaleio/mdm/bin/mdm-3.6.400.107(mosUmt_Init+0x129) [0x8f5e89] [(nil)]
Impacto:
El clúster de MDM está inactivo, lo que provoca que los datos no estén disponibles (DU).
Cause
El problema se identificó como un defecto de código de software en la versión 3.x, lo que provocó que los MDM entraran en una situación de pánico. Debido a este defecto, los datos transmitidos superaron el límite forzado de 200 GiB durante la replicación. Debido a las solicitudes excesivas, los MDM tuvieron dificultades para procesarlas, lo que generó inestabilidad y, en última instancia, pánico.
En este caso específico, los datos altamente transmitidos fueron el resultado de un comando trim de Windows SDC; sin embargo, el problema se pudo observar debido a cualquier transmisión de datos grande.
Resolution
Este problema de software se resolvió en las versiones más recientes. Para resolver permanentemente el problema, la recomendación es actualizar a 4.5.x o posterior para garantizar la estabilidad antes de reanudar la replicación:
- Detenga las SDR en todos los nodos.
Esto resuelve temporalmente el estado de alarma. - Pause o detenga todos los grupos de coherencia de replicación (RCG) y los pares de replicación.
- Actualice el sistema a la versión 4.5.x más reciente o posterior.
- Reanude la replicación después de completar la actualización.
Versiones afectadas:
PowerFlex 3.x
fijo en la versión:
PowerFlex 4.5