PowerMax: Habilitación del modo de mantenimiento para la transferencia, la confirmación y la cancelación de NDM en la conmutación por error del clúster
Resumen: Las migraciones no disruptivas (NDM) eliminan rutas de disco del servidor durante los comandos Transferir, Confirmar o Cancelar. En entornos de host o nodo de conmutación por error de clúster (MCF) de Microsoft, la evaluación periódica del estado del disco puede apuntar a una ruta que se elimina, lo que hace que MCF active una conmutación por error del clúster. ...
Síntomas
Comportamiento observado durante las operaciones de NDM
Es posible que se produzcan los siguientes problemas al ejecutar comandos de migración no disruptiva (NDM) en un entorno de conmutación por error de clúster de Microsoft:
- Conmutación por error de Microsoft Cluster durante el comando de transferencia de NDM (modo de paso de NDM).
- Conmutación por error de Microsoft Cluster durante el comando NDM Cancel.
- Microsoft Cluster realiza una conmutación por error durante el comando NDM Commit (modo NDM Metro IA).
Causa
Causa raíz de la conmutación por error del clúster durante las operaciones de NDM
El clúster de conmutación por error de Microsoft ejecuta periódicamente una evaluación del estado del disco. Durante los comandos de transferencia, cancelación o confirmación de la migración no disruptiva (NDM), el sistema de almacenamiento elimina las rutas de disco del host. Si el proceso de evaluación del estado intenta realizar I/O a una ruta que está en medio de la eliminación, la evaluación falla y activa una conmutación por error automática del clúster.
- La evaluación del estado del clúster se ejecuta cada pocos segundos y espera que todas las rutas configuradas estén disponibles.
- Los comandos Transferir, Cancelar y Confirmar de NDM eliminan rutas de disco en el servidor como parte de la migración.
- Las I/O simultáneas de la evaluación del estado a una ruta que se elimina dan como resultado una evaluación del estado fallida.
- La conmutación por error de clústeres de Microsoft interpreta la evaluación del estado fallida como una falla de disco, lo que hace que el nodo activo realice una conmutación por error.
Resolución
Evite la conmutación por error del clúster durante las operaciones de NDM
Procedimiento paso a paso
1. Identifique todos los recursos del clúster (volúmenes) que residen en el nodo que ejecutará el comando Transferir, Confirmar o Cancelar de NDM.
2. Coloque cada recurso identificado en modo de mantenimiento (suspenda el recurso) antes de iniciar la operación de NDM.
# Example PowerShell command to suspend a cluster resource Suspend-ClusterResource -Name "Cluster Disk 1"
3. Verifique que los recursos estén en el estado Suspended .
Get-ClusterResource -Name "Cluster Disk 1" | Format-Table Name, State
4. Ejecute el comando NDM necesario (Transferir, Confirmar o Cancelar) en el arreglo PowerMax/VMAX.
5. Una vez que el comando de NDM se complete correctamente, devuelva cada recurso al funcionamiento normal.
# Example PowerShell command to resume a cluster resource Resume-ClusterResource -Name "Cluster Disk 1"
6. Confirme que los recursos hayan vuelto al estado En línea .
Get-ClusterResource -Name "Cluster Disk 1" | Format-Table Name, State
Verificación
- Compruebe el estado del recurso del clúster en el Administrador de clústeres de conmutación por error o a través de PowerShell; todos los recursos deben mostrarse en línea y no fallidos .
- Revise el registro de eventos de Windows para ver si hay eventos de conmutación por error del clúster durante la operación de NDM; Ninguno debe estar presente.
- Confirme que la migración de NDM se informe correctamente en la consola de administración de Dell EMC.