RecoverPoint para máquina virtual: Bucle de grupos de coherencia entre el estado init y error en un entorno de escalamiento
Summary: RecoverPoint para máquina virtual: Bucle de grupos de coherencia entre el estado init y error en un entorno de escalamiento
Symptoms
Grupo de coherencia que realiza un bucle entre el estado de inicialización y el de error en un entorno
de escalamiento Lo que provoca que la replicación de datos no esté disponible (DRU).
Los síntomas encontrados en los registros:
registros del divisor de ESX:
Los siguientes registros indican que la lectura de /vmfs/volumes/vsan:5xxxxxxxxxx-dxxxxxxxxxxxxxxx falló, por lo que se eliminarán todos los volúmenes RPVS en VSAN.
spl_esx_discover_RPvStorage_clusters_in_datastore: No se pudo leer el directorio /vmfs/volumes/vsan:5xxxxxxxxxxxx-dxxxxxxxxx, se devolvió con el estado Tiempo de espera
agotado update_rpvs_db: LUN 1 no se analizó en la última actualización
de la vista de dispositivo RPVS_ClusterLuns_removeLunInfo: se llamó para LUN=1 (nombre RPVS_Lun00001.VMDK). ID del clúster = 2xxxxxxxxxxxx
update_rpvs_db: LUN 12 no se analizó en la última actualización
de la vista de dispositivo RPVS_ClusterLuns_removeLunInfo: se solicitó para LUN=12 (nombre RPVS_Lun00012.vmdk). ID del clúster = 2xxxxxxxxxxxxxx
update_rpvs_db: LUN 13 no se analizó en la última actualización de vista del dispositivo ...
* El proceso de descubrimiento de RPVS se realiza correctamente, por lo que todos los volúmenes de RPVS se vuelven a agregar:
parse_vmdk_file: se llamó con el archivo /vmfs/volumes/vsan:5xxxxxxxxxxxxxxxx/RPvStorage/4xxxxxxxxxxx/RPVS_Lun00001.vmdk
parse_vmdk_file: capacity=12000000, thinLun=0, flat_filename=RPVS_Lun00001-flat.vmdk, rawguid=0x6xxxxxxxxxxxx
RPVS_ClusterLuns_addLunInfo: se agregó LUN 1, clúster 4xxxxxxxxxxxxxxxxxxx parse_vmdk_file: se llamó con el archivo /vmfs/volumes/vsan:5xxxxxxxxxxxxxxx-dxxxxxxxxxxxxxxxx/RPvStorage_23d5fb88838940xxx_010/RPVS_Lun00012.vmdk parse_vmdk_file: capacity=524288000, thinLun=0, flat_filename=RPVS_Lun00012-flat.vmdk, rawguid=0x6xxxxxxxxxxxx RPVS_ClusterLuns_addLunInfo: se agregó LUN 12, clúster 2xxxxxxxxxxxxxxx
* Registro que indica que el proceso de descubrimiento de RPVS ha tardado mucho tiempo
CommandExecuterBase_v_handleCommands_i: cmd 0x417fdde35040, cmd-execute(CommandRPVSDiscovery), tiempo de> ejecución 32585607 microsegundos, num comandos en cola: 11 CommandExecuterBase_v_handleCommands_i: cmd 0x417fdde35040, cmd-execute(CommandRPVSDiscovery), tiempo de> ejecución 33277695 microsegundos, num comandos en cola: 11 CommandExecuterBase_v_handleCommands_i: cmd 0x417fdde35040, cmd-execute(CommandRPVSDiscovery), tiempo de> ejecución 35834242 microsegundos, comandos num en cola: 11 CommandExecuterBase_v_handleCommands_i: cmd 0x417fdde35040, cmd-execute(CommandRPVSDiscovery), tiempo de> ejecución 36488014 microsegundos, comandos num en cola: 11 CommandExecuterBase_v_handleCommands_i: cmd 0x417fdde35040, cmd-execute(CommandRPVSDiscovery), tiempo de> ejecución 37767728 microsegundos, comandos num en cola: 11 CommandExecuterBase_v_handleCommands_i: cmd 0x417fdde35040, cmd-execute(CommandRPVSDiscovery), tiempo de> ejecución 49355575 microsegundos, comandos num en cola: 11 CommandExecuterBase_v_handleCommands_i: cmd 0x417fdde35040, cmd-execute(CommandRPVSDiscovery), tiempo de> ejecución 109257427 microsegundos, comandos num en cola: 19
Afectó a todas las versiones de RP4VM
Cause
El divisor de ESX escanea el volumen RPVS (registro y repositorio) cada t_rpvsDiscoveryPeriodicTimerInterval (valor predeterminado: 30) segundos.
El escaneo se realiza leyendo /vmfs/volumes/ y recorriendo cada directorio dentro de él, buscando RPVS_LunXXXXX.vmdk
Un volumen RPVS reside en /vmfs/volumes/<datastore>/<cluster=id>/. En el entorno vSAN, residiría en /vmfs/volumes/vsan:<vsan-id>/<cluster=id>/
Si la lectura de cualquier directorio dentro de /vmfs/volumes/ falla (tiempo de espera agotado, error transitorio, etc.), se eliminarán todos los volúmenes RPVS del directorio fallido.
En cualquier ejecución posterior, si el proceso de descubrimiento de rpvs logra leer y encontrar RPVS_LunXXXXX.vmdk correctamente, los volúmenes RPVS correspondientes se volverán a agregar.
Esta es la razón por la que los CG realizan un bucle entre Error e Init.
El problema se magnifica cuando una gran cantidad de hosts en VSAN lee directorios en /vmfs/volumes/ al mismo tiempo.
Resolution
En cada host ESX del clúster, actualice el valor de ajuste del divisor de t_rpvsDiscoveryPeriodicTimerInterval
a un valor aleatorio entre 180 y 600 segundos y reinicie kdriver.
ESX Splitter Tweak se puede encontrar en
/etc/kdriver/tweak/tweak.params.splitter o /etc/config/emc/rp/kdriver/tweak/tweak.params.splitter.
Resolución:
el departamento de Ingeniería de Dell EMC actualmente se encuentra investigando este problema. Aún está en curso una corrección permanente. Comuníquese con el centro de soporte al cliente de Dell EMC o con su representante de servicio para obtener asistencia y hacer referencia a este ID de solución.