RecoverPoint: O processo de replicação trava quando a memória cache da fase 1 se torna insuficiente
Summary: A replicação travará com a afirmação da memória cache da fase 1 insuficiente, o que causa a regulação da reinicialização.
Symptoms
O estado do grupo de consistência continua na inicialização, mas a distribuição normal parece nunca iniciar e o CG não faz a transição para um estado ativo. Uma falha no processo de replicação com uma declaração registrada quando a memória cache da fase 1 não é suficiente e os dispositivos RecoverPoint do lado de destino não conseguem gravar no registro de destino. Sintomas encontrados nos logs /home/kos/replication: Asserção: XXXX/XX/XX 18:59:25.693 - #2 - 17936/16776 - AssertLogSender: sending log: topic=DistributorGroupHandler, msg=Assertion failed: bIsPhase1CacheMemoryEnough Line 1825 File DistributorGroupHandlerPhase1.cc PID: 16776 Info: a memória cache regular phase1 não é suficiente m_GroupGridCopyRID = (groupCopyRID=(kVolSlot=XXXXXXXXXX,globalCopyID=GlobalCopy(SiteUID(0xXXXXXXXXXXXXXX) 0) ),gridCopyID=0) XXXX/XX/XX 18:59:25.694 - #2 - 16911/16776 - RemoteLogSender: got event (uniqueId=0, eventTime=1584471565693987), EventID_KBOX_ASSERTION_FAILED(3031), SiteUID(0xxxxxxxxxxxxxxxxx), seDetails=Sender=replication, Topic=DistributorGroupHandler, msg=Assertion failed: bIsPhase1CacheMemoryEnough Line 1825 File DistributorGroupHandlerPhase1.cc PID: 16776 Info: a memória cache regular phase1 não é suficiente m_GroupGridCopyRID = (groupCopyRID=(kVolSlot=XXXXXXXXXX,globalCopyID=GlobalCopy(SiteUID(0xXXXXXXXXXXX) 0) ),gridCopyID=0) Estatísticas que mostram alto fluxo de dados: XXXX/XX/XX 18:52:41.520 - #2 - 7676/7665 - AccumulatorFormatManager::p rintStatistics: Estatísticas de grupo para o grupo Option( kVolSlot = XXXXXXXXXX groupUID = GroupCopy(1346840554 SiteUID(0xXXXXXXXXXXX) 0) gridID = 0): { ESTATÍSTICAS: name=InitNCOnePhaseSpeed kVolSlot = 1346840554 groupUID = GroupCopy(1346840554 SiteUID(0xXXXXXXXXXXXXX) 0) gridID = 0 description: init nc one phase speed . ESTATÍSTICAS: name=InitNCOnePhaseSpeed kVolSlot = 1346840554 groupUID = GroupCopy(1346840554 SiteUID(0xXXXXXXXXXXXXX) 0) gridID = 0 Janela de 8 segundos: Média: 1,14e+03 MB/seg ESTATÍSTICAS: name=InitNCOnePhaseSpeed kVolSlot = 1346840554 groupUID = GroupCopy(1346840554 SiteUID(0xXXXXXXXXXXXXX) 0) gridID = 0 Janela de 77 segundos: Média: 1,06e+03 MB/seg Um grupo de consistência está no estado de inicialização: 17/03/2020 18:56:05.070 - #2 - 7954/7665 - InitNCState::D istributeOnePhase: distribuindo uma fase m_groupID = (groupCopyRID=( kVolSlot=XXXXXXXXXX,globalCopyID=GlobalCopy(SiteUID(0xXXXXXXXXXXXX) 0) ),gridCopyID=0) O consumidor da fase 1 deste grupo de consistência está mostrando alto consumo na afirmação: XXXX/XX/XX 18:56:05.241 - #2 - 7954/7665 - MemoryManager: viscus on assert + contagem regressiva = 2413/390 + demanda mínima de memória = 433429 (103892 329537 flexível + espaço de uso flexível = 37977/3864963 + uso de espaço no pool = 37985/4194500 (máx. de 143544) >> 1160635626647715840 :p hase1#22 >> (groupTaskID=(sessionID=1817723153,replicationLinkID=(kVolSlot=XXXXXXXXX,srcCopyID=GlobalCopy(SiteUID(0xXXXXXXXXXXXX) >> 0) ,destCopyID=GlobalCopy(SiteUID Um Replication StackTrace também é usado: 17/03/2020 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 3: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZNK6Kashya23DistributorGroupHandler21waitForMemoryIfNeededEv+0x5b2) [0xxxxxxxxxxxxx] 17/03/2020 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 4: /home/kos/kashya/arquivo/lib/libreplication_libsrelease.so(_ZN6Kashya23DistributorGroupHandler25addSequencesToPhase1CacheENS_9SequencesERNS_15ReplicationModeE+0x939) 17/03/2020 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 5: /home/kos/kashya/arquivo/lib/libreplication_libsrelease.so(_ZN6Kashya23DistributorGroupHandler23handleSplittedSequencesENS_9SequencesERKNS_15ReplicationModeERKb+0x20a) 17/03/2020 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 6: /home/kos/kashya/arquivo/lib/libreplication_libsrelease.so(_ZN6Kashya23DistributorGroupHandler15handleSequencesENS_9SequencesERKNS_15ReplicationModeERKb+0x577) 17/03/2020 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 7: /home/kos/kashya/arquivo/lib/libreplication_libsrelease.so(_ZN6Kashya19Distributor_AO_IMPL23continueHandleSequencesENS_9SequencesENS_15ReplicationModeEbRKNS_10GridCopyIDE+0xf7) 17/03/2020 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 8: /home/kos/kashya/arquivo/lib/libreplication_libsrelease.so(_ZN6Kashya16SequencesRequest21continueHandleRequestERNS_28JournalRegulationRequestBase14RequestHandlerE+0x30b) 17/03/2020 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 9: /home/kos/kashya/arquivo/lib/libreplication_libsrelease.so(_ZN6Kashya31JournalRegulationThread_AO_IMPL9process_iERKNS_16GroupGridCopyRIDE+0x36f)
Cause
Resolution
Solução temporária: Altere o valor do ajuste t_phase1CacheMemoryThreadSleepTime para 5.000. (Aumentando o tempo de espera de 10 microssegundos para 5 milissegundos). Isso garantirá que não confirmaremos até que o thread aguarde pela memória por 5 milissegundos. Se o problema ainda estiver ocorrendo: 1. Colete também os logs do local de produção. Uma vez que nos informará a quantidade de dados que estão sendo enviados da produção no momento do problema. 2. Altere o valor do ajuste t_maxNoOfTriesToWaitForPhase1CacheMemory para 10. Nota: Esses ajustes são relevantes apenas para as versões 5.1.3 e posteriores. Se a versão do código não for 5.1.3 ou posterior, o RecoverPoint DEVERÁ receber upgrade para o código mais recente para utilizar esses ajustes. Resolução: A equipe de engenharia da Dell EMC está investigando esse problema. Uma correção permanente ainda está em andamento. Para obter assistência, entre em contato com o centro de suporte ao cliente da Dell EMC ou com seu representante de serviço e mencione o ID dessa solução.