PowerFlex: Errores de I/O del cliente cuando se utiliza la replicación
Summary: Los servidores cliente experimentan errores de I/O en dispositivos respaldados por PowerFlex. El back-end general (MDM y SDS) parece estar en buen estado. Se está utilizando la replicación de PowerFlex y hay algunos errores de RPO en uno o más de los RCG. ...
Symptoms
- Sin capacidad degradada o fallida
- No se desacopló ningún SDS y ningún dispositivo SDS informó errores
- Sin MDM desconectados
- La característica de replicación se está utilizando
Una o más alertas en la UI de informa los siguientes errores:
Minor - Remote Consistency Group RPO Exceeded
Major - The RCG consistent image is too large to be consumed by the destination in one piece.
Los registros de eventos de MDM pueden informar lo siguiente:
2024-06-11 15:55:56.592000:0001566:RPL_PD_CAP_UTILIZATION_MINOR WARNING Protection Domain ID <pd_id> Replication journal capacity is at MINOR utilization level
...
2024-06-11 16:20:12.848000:0001567:RPL_PD_CAP_UTILIZATION_MAJOR ERROR Protection Domain ID <pd_id> Replication journal capacity is at MAJOR utilization level
...
2024-06-11 17:19:57.272000:0001584:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at VERY_HIGH utilization level
...
2024-06-11 17:52:26.352000:0001585:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at CRITICAL utilization level
...
2024-06-11 16:25:14.381000:0001576:RPL_CG_MOVED_TO_SLIM_MODE INFO Replication Consistency Group ID <rcg_id> entered slim mode
...
2024-06-11 18:27:29.738000:0001586:SDR_CRITICAL_CAP_CHANGE ERROR SDR ID <sdr_id>) handling user data changed discarded old user data and stopped to accumulate new user data due critical capacity
Impacto
Los clientes no pueden acceder a los volúmenes que se están replicando.
Cause
Es posible que se produzca un defecto de software poco frecuente cuando el componente MDM y el SDR no están de acuerdo en los contadores internos relacionados con la capacidad del registro.
Esta discrepancia puede hacer que el MDM no pueda anular la asignación (liberar) de capacidad de registro adicional cuando la capacidad del SDR esté llena, lo que podría provocar errores de I/O en los servidores cliente que utilizan dispositivos respaldados por PowerFlex.
Resolution
Se requiere un reinicio gradual de todos los componentes de SDR y se debe cambiar la propiedad del MDM en el sistema de origen para resolver el problema.
Reinicie los componentes del SDR en el sitio de destino
1. Identifique todos los SDR y valide que estén en buen estado antes de continuar con el paso 2:
scli --query_all_sdr
2. Ingrese al modo de mantenimiento en la SDR:
scli --enter_sdr_maintenance_mode --sdr_name <name>
3. Valide que el SDR esté en modo de mantenimiento mediante la ejecución del comando del paso 1.
4. Reinicie el componente SDR
pkill sdr
5. Repita los pasos del 1 al 4 para todos los SDR en el sitio fuente .
6. Saque las SDR del modo de mantenimiento:
scli --exit_sdr_maintenance_mode --sdr_name <name>
7. Cambie la propiedad de MDM una vez que todos los SDR se reinicien y se encuentren en buen estado:
#3.x
scli --switch_mdm_ownership --new_master_mdm_name <name>
#4.x
scli --switch_mdm_ownership --new_primary_mdm_name <name>
8. Valide que ya no se informen los errores de I/O en los servidores cliente. Si el cliente ingresó a un sistema de archivos de solo lectura, es posible que el servidor cliente requiera un reinicio.
Versiones afectadas
PowerFlex 3.x
PFMP 4.x
Problema corregido en la versión
PowerFlex 4.5.3
PowerFlex 4.5.4: actualización a 4.5.4 HF1
PowerFlex 4.5.5: ninguna corrección disponible
PowerFlex 4.5.6 y superior
Additional Information
Versiones afectadas
PowerFlex 3.x
PowerFlex 4.x
Problema corregido en la versión
PowerFlex 4.5.3
PowerFlex 4.5.4: actualización a 4.5.4 HF1
PowerFlex 4.5.5: sin corrección disponible.
PowerFlex 4.5.6 y superior