RecoverPoint com VMware SRM: As operações de failover falham na etapa "Criar armazenamento gravável"
Summary: As operações de failover ou failover de teste do VMware Site Recovery Manager (SRM) falham após algum tempo na etapa "Criar armazenamento gravável": Erro - Falha ao criar snapshots de dispositivos de réplica. Falha no comando "testFailoverStart" do SRA. Falha ao abrir a sessão para IP de gerenciamento de usuário para local. ...
Symptoms
Devido a falhas de teste do Site Recovery Manager (SRM), os usuários aumentam os tempos de espera excedidos do SRM para além de 31 minutos, e as operações de habilitação de acesso à imagem levam mais do que a configuração de tempo de espera excedido.
As operações de failover ou failover de teste do SRM podem falhar na etapa 4: "Criar snapshot de armazenamento gravável" após um período nesta etapa (31 minutos por padrão) com erro nas etapas do plano de recuperação do SRM:
Error - Failed to create snapshots of replica devices. SRA command 'testFailoverStart' failed. Failed opening session for user to site mgmt IP.
Erros nos registros do SRM (C:\ProgramData\VMware\VMware vCenter Site Recovery Manager\Logs):
--> Feb 20, 2019 3:12:52 PM com.emc.santorini.log.KLogger log --> INFO: Starting to run: TestFailoverStart command --> Feb 20, 2019 3:43:53 PM com.emc.santorini.log.KLogger logWithException --> WARNING: Caught SocketTimeoutException. Please check your network connection to the RPAs. --> javax.xml.ws.WebServiceException: java.net.SocketTimeoutException: Read timed out --> at com.sun.xml.internal.ws.transport.http.client.HttpClientTransport.readResponseCodeAndMessage(Unknown Source) --> at com.sun.xml.internal.ws.transport.http.client.HttpTransportPipe.createResponsePacket(Unknown Source) --> at com.sun.xml.internal.ws.transport.http.client.HttpTransportPipe.process(Unknown Source) --> at com.sun.xml.internal.ws.transport.http.client.HttpTransportPipe.processRequest(Unknown Source) --> at com.sun.xml.internal.ws.transport.DeferredTransportPipe.processRequest(Unknown Source) --> at com.sun.xml.internal.ws.api.pipe.Fiber.__doRun(Unknown Source) --> at com.sun.xml.internal.ws.api.pipe.Fiber._doRun(Unknown Source) --> at com.sun.xml.internal.ws.api.pipe.Fiber.doRun(Unknown Source) --> at com.sun.xml.internal.ws.api.pipe.Fiber.runSync(Unknown Source) --> at com.sun.xml.internal.ws.client.Stub.process(Unknown Source) --> at com.sun.xml.internal.ws.client.sei.SEIStub.doProcess(Unknown Source) --> at com.sun.xml.internal.ws.client.sei.SyncMethodHandler.invoke(Unknown Source) --> at com.sun.xml.internal.ws.client.sei.SyncMethodHandler.invoke(Unknown Source) --> at com.sun.xml.internal.ws.client.sei.SEIStub.invoke(Unknown Source) --> at com.sun.proxy.$Proxy36.testFailoverStartWithOpaques(Unknown Source) --> at com.emc.santorini.handlers.SantoriniLogic.testFailoverStart(SantoriniLogic.java:278) --> at com.emc.santorini.commands.TestFailoverStartCommand.execute(TestFailoverStartCommand.java:40) --> at com.emc.santorini.handlers.SantoriniCommandDispatcher.handleCommandAction(SantoriniCommandDispatcher.java:105) --> at com.emc.santorini.main.SantoriniMain.main(SantoriniMain.java:57) --> Caused by: java.net.SocketTimeoutException: Read timed out ...
Nenhum erro no lado do RecoverPoint
Cause
Os tempos de espera excedidos padrão do SRM são definidos como 5 minutos e podem ser aumentados; quando aumentados para além de 31 minutos, pode ocorrer um tempo de espera excedido diferente - o tempo de espera excedido do SRA poderá ocorrer se o processo de acesso à imagem demorar mais de 1.860 segundos (31 minutos) - WEB_SERVICE_REQUEST_TIMEOUT definido como 1.860 segundos por padrão.
Resolution
Resolução:
Altere os tempos de espera excedidos do SRA para corresponder às alterações de tempo limite solicitadas no SRM.
Os tempos de espera excedidos do SRA são definidos no servidor do SRM, em: C:\Program Files\VMware\VMware vCenter Site Recovery Manager\storage\sra\array-type-recoverpoint\conf\cancun_run.properties file
As alterações devem ser feitas em ambos os servidores SRM.
Altere as seguintes propriedades para corresponder aos tempos de espera excedidos do SRM (definidos em segundos). Neste exemplo, ela é definida como 1 hora a 3.600 segundos:
VERIFY_PAUSED_TSP_TIMEOUT=3600 VERIFY_REPLICATING_TIMEOUT=3600 VERIFY_TRANSFER_SNAP_SHIPPING_IDLE_TIMEOUT=3600 WEB_SERVICE_REQUEST_TIMEOUT=3600