PowerFlex 3.x: El servicio SDS entra en estado de alarma continuamente con la función drl_IsClean
Summary: En raras ocasiones, es posible que el servicio SDS entre en estado de alarma continuamente con la función drl_IsClean. Este problema se ha observado cuando los dispositivos SDS tienen un tamaño superior a 2 TB. ...
Symptoms
El servicio SDS entra en estado de alarma continuamente con el siguiente seguimiento de la pila:
/opt/emc/scaleio/sds/logs/exp.0
2024/07/22 21:54:33.819866 Panic in file /data/build/workspace/ScaleIO-Common-Job/src/tgt/bm/drl.c, line 1238, function drl_IsClean, PID 17253.Panic Expression !(offsetInLbs < pDrl->protectedOffsetInLbs) PANIC_ID_tgt_1497349762194.
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(mosDbg_PanicPrepare+0x13a) [0x93ab8a]
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(drl_IsClean+0x5e) [0x9346ae]
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(mgPhyDev_IsDrlGroupClean+0x4b) [0x93476b]
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(mgPhyComb_ReadIntegrityBits+0x130) [0x906040]
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(mgStorageRegion_ReadRegionIntegrity+0xb4) [0x906224]
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(storageRegion_ReadDirtyRegion+0xad) [0x740f4d]
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(raidComb_ReadDrl+0x7d) [0x74105d]
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(ioh_ReadCombDrl+0x758) [0x5eb368]
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(ioh_NewRequest+0x2084) [0x5fb4a4]
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(contNet_RecvIORequest+0x2c4) [0x601534]
Impacto
Es posible que se produzca una falta de disponibilidad de datos de usuario si cualquier otro SDS se desacopla como parte de estar en uno de los siguientes estados:
- Modo de mantenimiento instantáneo (IMM)
- Estado de error
- Durante una reconstrucción en curso
Cause
Alarmas del servicio SDS causadas por grandes desplazamientos de dispositivos.
Resolution
Corregir:
- PowerFlex 3.6.5 y superior (fin del soporte)
- PowerFlex 4.5 y superior
Solución alternativa:
Siga una de las opciones.
Si la opción 1 no resuelve el problema, vaya a la opción 2.
Opción 1:
-
- Ingrese el nodo SDS en IMM desde la línea de comandos scli o la interfaz de usuario del servidor de presentación.
- Si el nodo SDS no puede ingresar a IMM, detenga el demonio de SDS mediante la ejecución del script
/opt/emc/scaleio/sds/bin/delete_service.sh.Take necessary precautions to prevent the cluster from entering a Data Unavailability (DU) state. Before stopping the SDS daemon, verify that no Rebuild is in progress. If you're unsure about the DU state, consult L2 or an SME.
- Si el nodo SDS no puede ingresar a IMM, detenga el demonio de SDS mediante la ejecución del script
- Detenga el servicio de SDS una vez que el SDS se coloque en IMM
/opt/emc/scaleio/sds/bin/delete_service.sh - Quite la memoria compartida del SDS (incluida la memoria compartida de CloudLink).
- Transfiera los archivos generados por el siguiente comando a un directorio temporal
ls -l /dev/shm | egrep -i *EMC_sds* ls -l /dev/shm | egrep emc_scaleio_*
- Transfiera los archivos generados por el siguiente comando a un directorio temporal
- Inicie el servicio SDS
/opt/emc/scaleio/sds/bin/create_service.sh
- Ingrese el nodo SDS en IMM desde la línea de comandos scli o la interfaz de usuario del servidor de presentación.
-
- Saque el SDS de IMM mediante la scli o la interfaz de usuario del servidor de presentación. Se espera que comience una reconstrucción. Si el SDS no estaba en IMM, vaya al paso siguiente
- Compruebe el resultado del siguiente comando para asegurarse de que el SDS esté conectado:
scli --query_all_sds
- Saque el SDS de IMM mediante la scli o la interfaz de usuario del servidor de presentación. Se espera que comience una reconstrucción. Si el SDS no estaba en IMM, vaya al paso siguiente
Opción 2:
-
Si el sistema no se encuentra en un estado de falla de datos y hay suficiente capacidad libre o de repuesto disponible, elimine el nodo SDS del clúster de PowerFlex. Una vez finalizado el reequilibrio, vuelva a agregar el nodo SDS con todos los dispositivos SDS.
IMPORTANTE:
Un escáner en segundo plano (BGS) y un error parcial del dispositivo (PDE) podrían hacer que el problema se repita. Si es posible, deshabilite BGS o use BGS en modo "Solo informe".
Las sumas de comprobación persistentes no deberían generar problemas. Sin embargo, si hay una discrepancia en la suma de comprobación, se inicia una pequeña reconstrucción, lo que puede hacer que el problema vuelva a surgir. Si es posible, deshabilite la suma de comprobación persistente.