RecoverPoint: Proces replikacji ulega awarii, gdy pamięć podręczna fazy 1 staje się niewystarczająca
Summary: Replikacja ulegnie awarii z powodu niewystarczającej ilości pamięci podręcznej fazy 1, co powoduje regulację ponownego uruchamiania.
Symptoms
Grupa spójności nadal jest w fazie inicjalizacji, ale rozkład normalny nigdy się nie uruchamia, a grupa kontrolna nie przechodzi w stan aktywny. Awaria procesu replikacji z zarejestrowaną asercją, gdy pamięć podręczna fazy 1 nie jest wystarczająca, a urządzenia RecoverPoint po stronie docelowej nie są w stanie zapisać w dzienniku docelowym. Objawy znalezione w dziennikach /home/kos/replication: Twierdzenie: XXXX/XX/XX 18:59:25.693 - #2 - 17936/16776 - AssertLogSender: wysyłanie dziennika: topic=DistributorGroupHandler, msg=Asercja nie powiodła się: bIsPhase1CacheMemoryEnough Wiersz 1825 Plik DistributorGroupHandlerPhase1.cc PID: 16776 Info: zwykła pamięć podręczna fazy 1 jest niewystarczająca m_GroupGridCopyRID = (groupCopyRID=(kVolSlot=XXXXXXXXXX,globalCopyID=GlobalCopy(SiteUID(0xXXXXXXXXXXXXXX) 0) ),gridCopyID=0) XXXX/XX/XX 18:59:25.694 - #2 - 16911/16776 - RemoteLogSender: got event (uniqueId=0, eventTime=1584471565693987), EventID_KBOX_ASSERTION_FAILED(3031), SiteUID(0xxxxxxxxxxxxxxxxxx), seDetails=Sender=replikacja, Topic=DistributorGroupHandler, msg=Niepowodzenie asercji: bIsPhase1CacheMemoryEnough Wiersz 1825 DistributorGroupHandlerPhase1.cc PID: 16776 Info: zwykła pamięć podręczna fazy 1 nie wystarcza m_GroupGridCopyRID = (groupCopyRID=(kVolSlot=XXXXXXXXXX,globalCopyID=GlobalCopy(SiteUID(0xXXXXXXXXXXX) 0) ),gridCopyID=0) Statystyki, które pokazują wysoki przepływ danych: XXXX/XX/XX 18:52:41.520 - #2 - 7676/7665 - AccumulatorFormatManager::p rintStatistics: Statystyka grupy dla grupy Option( kVolSlot = XXXXXXXXXX groupUID = GroupCopy(1346840554 SiteUID(0xXXXXXXXXXXX) 0) gridID = 0): { STATYSTYKA: name=InitNCOnePhaseSpeed kVolSlot = 1346840554 groupUID = GroupCopy(1346840554 SiteUID(0xXXXXXXXXXXXXX) 0) gridID = 0 opis: init nc szybkość jednofazowa . STATYSTYKI: name=InitNCOnePhaseSpeed kVolSlot = 1346840554 groupUID = GroupCopy(1346840554 SiteUID(0xXXXXXXXXXXXXX) 0) gridID = 0 Okno 8 sekund: Średnia: 1,14e + 03 MB/s STATYSTYKI: name=InitNCOnePhaseSpeed kVolSlot = 1346840554 groupUID = GroupCopy(1346840554 SiteUID(0xXXXXXXXXXXXXX) 0) gridID = 0 Okno 77 sekund: Średnia: 1,06e + 03 MB/s Grupa spójności jest w stanie Inicjowanie: 2020/03/17 18:56:05.070 - #2 - 7954/7665 - InitNCState::D istributeOnePhase: dystrybucja jednej fazy m_groupID = (groupCopyRID=( kVolSlot=XXXXXXXXXX,globalCopyID=GlobalCopy(SiteUID(0xXXXXXXXXXXXX) 0) ),gridCopyID=0) Odbiorca fazy 1 dla tej grupy spójności wykazuje wysokie zużycie w potwierdzeniu: XXXX/XX/XX 18:56:05.241 — #2 — 7954/7665 — MemoryManager: viscus przy asercji + odliczanie = 2413/390 + minimalne zapotrzebowanie pamięci = 433429 (stałe 329537 103892 elastyczne) + Elastyczna przestrzeń użytkowa = 37977/3864963 + wykorzystanie miejsca w puli = 37985/4194500 (maks. 143544) >> 1160635626647715840 :p hase1#22 >> (groupTaskID=(sessionID=1817723153,replicationLinkID=(kVolSlot=XXXXXXXXX,srcCopyID=GlobalCopy(SiteUID(0xXXXXXXXXXXXX) >> 0) ,destCopyID=GlobalCopy(SiteUID Występuje również ślad stosu replikacji: 2020/03/17 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 3: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZNK6Kashya23DistributorGroupHandler21waitForMemoryIfNeededEv+0x5b2) [0xxxxxxxxxxxxx] 2020/03/17 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 4: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZN6Kashya23DistributorGroupHandler25addSequencesToPhase1CacheENS_9SequencesERNS_15ReplicationModeE+0x939) 2020/03/17 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 5: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZN6Kashya23DistributorGroupHandler23handleSplittedSequencesENS_9SequencesERKNS_15ReplicationModeERKb+0x20a) 2020/03/17 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 6: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZN6Kashya23DistributorGroupHandler15handleSequencesENS_9SequencesERKNS_15ReplicationModeERKb+0x577) 2020/03/17 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 7: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZN6Kashya19Distributor_AO_IMPL23continueHandleSequencesENS_9SequencesENS_15ReplicationModeEbRKNS_10GridCopyIDE+0xf7) 2020/03/17 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 8: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZN6Kashya16SequencesRequest21continueHandleRequestERNS_28JournalRegulationRequestBase14RequestHandlerE+0x30b) 2020/03/17 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 9: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZN6Kashya31JournalRegulationThread_AO_IMPL9process_iERKNS_16GroupGridCopyRIDE+0x36f)
Cause
Resolution
Obejście problemu: Zmień wartość modyfikacji t_phase1CacheMemoryThreadSleepTime na 5000. (Wydłużenie czasu oczekiwania z 10 mikrosekund do 5 milisekund). Zapewni to, że nie będziemy asercji, dopóki wątek nie będzie czekał na pamięć przez 5 milisekund. Jeśli problem nadal występuje: 1. Zbierz również dzienniki zakładu produkcyjnego. Ponieważ dzięki temu poznamy ilość danych wysyłanych z produkcji w momencie wystąpienia problemu. 2. Zmień wartość ustawienia t_maxNoOfTriesToWaitForPhase1CacheMemory na 10. Uwaga: Te poprawki dotyczą tylko wersji 5.1.3 i nowszych. Jeśli wersja kodu jest inna niż 5.1.3 lub nowsza, program RecoverPoint MUSI zostać uaktualniony do najnowszego kodu, aby skorzystać z tych poprawek. Rozwiązanie: Inżynierowie firmy Dell EMC badają obecnie ten problem. Prace nad trwałym rozwiązaniem są w toku. Skontaktuj się z pomocą techniczną Dell EMC lub przedstawicielem działu obsługi klienta, aby uzyskać pomoc i zapoznać się z identyfikatorem tego rozwiązania.