RecoverPoint con VMware SRM: Las operaciones de conmutación por error fallan en el paso "Crear almacenamiento con capacidad de escritura"
Summary: Las operaciones de conmutación por error o conmutación por error de prueba de VMware Site Recovery Manager (SRM) fallan después de un tiempo en el paso "Crear almacenamiento con capacidad de escritura": Error: no se pudieron crear instantáneas de dispositivos de réplica. El comando "testFailoverStart" de SRA falló. No se pudo abrir la sesión del usuario a la IP de administración del sitio. ...
Symptoms
Debido a fallas en las pruebas de Site Recovery Manager (SRM), los usuarios aumentan los tiempos de espera agotados de SRM más allá de los 31 minutos y las operaciones de habilitación del acceso a la imagen tardan más que el ajuste de tiempo de espera agotado.
Las operaciones de conmutación por error o conmutación por error de prueba de SRM pueden fallar en el paso 4: "Create writable storage snapshot" después de un período de tiempo en este paso (31 minutos de manera predeterminada) con error en los pasos del plan de recuperación de SRM:
Error - Failed to create snapshots of replica devices. SRA command 'testFailoverStart' failed. Failed opening session for user to site mgmt IP.
Los errores de los registros de SRM (C:\ProgramData\VMware\VMware vCenter Site Recovery Manager\Logs):
--> Feb 20, 2019 3:12:52 PM com.emc.santorini.log.KLogger log --> INFO: Starting to run: TestFailoverStart command --> Feb 20, 2019 3:43:53 PM com.emc.santorini.log.KLogger logWithException --> WARNING: Caught SocketTimeoutException. Please check your network connection to the RPAs. --> javax.xml.ws.WebServiceException: java.net.SocketTimeoutException: Read timed out --> at com.sun.xml.internal.ws.transport.http.client.HttpClientTransport.readResponseCodeAndMessage(Unknown Source) --> at com.sun.xml.internal.ws.transport.http.client.HttpTransportPipe.createResponsePacket(Unknown Source) --> at com.sun.xml.internal.ws.transport.http.client.HttpTransportPipe.process(Unknown Source) --> at com.sun.xml.internal.ws.transport.http.client.HttpTransportPipe.processRequest(Unknown Source) --> at com.sun.xml.internal.ws.transport.DeferredTransportPipe.processRequest(Unknown Source) --> at com.sun.xml.internal.ws.api.pipe.Fiber.__doRun(Unknown Source) --> at com.sun.xml.internal.ws.api.pipe.Fiber._doRun(Unknown Source) --> at com.sun.xml.internal.ws.api.pipe.Fiber.doRun(Unknown Source) --> at com.sun.xml.internal.ws.api.pipe.Fiber.runSync(Unknown Source) --> at com.sun.xml.internal.ws.client.Stub.process(Unknown Source) --> at com.sun.xml.internal.ws.client.sei.SEIStub.doProcess(Unknown Source) --> at com.sun.xml.internal.ws.client.sei.SyncMethodHandler.invoke(Unknown Source) --> at com.sun.xml.internal.ws.client.sei.SyncMethodHandler.invoke(Unknown Source) --> at com.sun.xml.internal.ws.client.sei.SEIStub.invoke(Unknown Source) --> at com.sun.proxy.$Proxy36.testFailoverStartWithOpaques(Unknown Source) --> at com.emc.santorini.handlers.SantoriniLogic.testFailoverStart(SantoriniLogic.java:278) --> at com.emc.santorini.commands.TestFailoverStartCommand.execute(TestFailoverStartCommand.java:40) --> at com.emc.santorini.handlers.SantoriniCommandDispatcher.handleCommandAction(SantoriniCommandDispatcher.java:105) --> at com.emc.santorini.main.SantoriniMain.main(SantoriniMain.java:57) --> Caused by: java.net.SocketTimeoutException: Read timed out ...
No hay errores en el lado de RecoverPoint
Cause
Los tiempos de espera predeterminados de SRM se establecen en 5 minutos y se pueden aumentar. Cuando se incrementan más allá de los 31 minutos, se puede producir un tiempo de espera diferente: el tiempo de espera de SRA se puede agotar si el proceso de acceso a la imagen tarda más de 1860 segundos (31 minutos), WEB_SERVICE_REQUEST_TIMEOUT que se establece en 1860 segundos de manera predeterminada.
Resolution
Resolución:
Cambie los tiempos de espera agotados de SRA para que coincidan con los cambios de tiempo de espera solicitados en SRM.
Los tiempos de espera agotados de SRA se establecen en el servidor SRM, en: C:\Program Files\VMware\VMware vCenter Site Recovery Manager\storage\sra\array-type-recoverpoint\conf\cancun_run.properties file
Los cambios se deben realizar en ambos servidores de SRM.
Cambie las siguientes propiedades para que coincidan con los tiempos de espera agotados de SRM (establecidos en segundos); en este ejemplo, se establece en 1 hora - 3600 segundos:
VERIFY_PAUSED_TSP_TIMEOUT=3600 VERIFY_REPLICATING_TIMEOUT=3600 VERIFY_TRANSFER_SNAP_SHIPPING_IDLE_TIMEOUT=3600 WEB_SERVICE_REQUEST_TIMEOUT=3600