RecoverPoint: Proces replikace se zhroutí, když přestane stačit paměť cache fáze 1
Summary: Replikace se zhroutí, protože paměť cache fáze 1 není dostatečná, což způsobí regulaci restartování.
Symptoms
Stav skupiny konzistence je i nadále v inicializaci, ale zdá se, že normální distribuce se nikdy nespustí a CG nepřejde do aktivního stavu. Dojde k chybě procesu replikace s zaprotokolovaným kontrolním výrazem, když paměť cache fáze 1 není dostatečná a zařízení RecoverPoint na cílové straně nemohou zapisovat do cílového deníku. Příznaky nalezené v protokolech /home/kos/replication: Tvrzení: XXXX/XX/XX 18:59:25.693 - #2 - 17936/16776 - AssertLogSender: sending log: topic=DistributorGroupHandler, msg=Assertion failed: bIsPhase1CacheMemoryEnough 1825 Soubor DistributorGroupHandlerPhase1.cc PID: 16776 Info: Běžná paměť mezipaměti fáze 1 není dostatečná m_GroupGridCopyRID = (groupCopyRID=(kVolSlot=XXXXXXXXXX,globalCopyID=GlobalCopy(SiteUID(0xXXXXXXXXXXXXXX) 0),gridCopyID=0) XXXX/XX/XX 18:59:25.694 - #2 - 16911/16776 - RemoteLogSender: got event (uniqueId=0, eventTime=1584471565693987), EventID_KBOX_ASSERTION_FAILED(3031), SiteUID(0xxxxxxxxxxxxxxxxx), seDetails=Sender=replikace, Topic=DistributorGroupHandler, msg=Kontrolní výraz se nezdařil: bIsPhase1CacheMemorySufficient Soubor DistributorGroupHandlerPhase1.cc PID souboru 1825: 16776 Info: Běžná paměť mezipaměti phase1 není dostatečná m_GroupGridCopyRID = (groupCopyRID=(kVolSlot=XXXXXXXXXX,globalCopyID=GlobalCopy(SiteUID(0xXXXXXXXXXXX) 0),gridCopyID=0) Statistiky, které ukazují vysoký tok dat: XXXX/XX/XX 18:52:41.520 - #2 - 7676/7665 - AccumulatorFormatManager::p rintStatistics: Statistika skupiny pro skupinu Option( kVolSlot = XXXXXXXXXX groupUID = GroupCopy(1346840554 SiteUID(0xXXXXXXXXXXX) 0) gridID = 0): { STATISTIKA: name=InitNCOnePhaseSpeed kVolSlot = 1346840554 groupUID = GroupCopy(1346840554 SiteUID(0xXXXXXXXXXXXXX) 0) gridID = 0 description: init nc jednofázová rychlost . STATISTIKA: name=InitNCOnePhaseSpeed kVolSlot = 1346840554 groupUID = GroupCopy(1346840554 SiteUID(0xXXXXXXXXXXXXX) 0) gridID = 0 8 sec okno: Průměrný: 1,14e+03 MB/s STATISTIKY: name=InitNCOnePhaseSpeed kVolSlot = 1346840554 groupUID = GroupCopy(1346840554 SiteUID(0xXXXXXXXXXXXXX) 0) gridID = 0 77 sec okno: Průměrný: 1,06e+03 MB/s Skupina konzistence je ve stavu inicializace: 2020/03/17 18:56:05.070 - #2 - 7954/7665 - InitNCState::D istributeOnePhase: distribuce jedné fáze m_groupID = (groupCopyRID=( kVolSlot=XXXXXXXXXX,globalCopyID=GlobalCopy(SiteUID(0xXXXXXXXXXXXX) 0),gridCopyID=0) Příjemce fáze 1 pro tuto skupinu konzistence vykazuje vysokou spotřebu kontrolního výrazu: XXXX/XX/XX 18:56:05.241 - #2 - 7954/7665 - MemoryManager: viscus on assert + odpočítávání = 2413/390 + minimální nároky na paměť = 433429 (pevné 329537 flexibilní 103892) + flexibilní využití prostoru = 37977/3864963 + využití prostoru bazénu = 37985/4194500 (max. 143544) >> 1160635626647715840 :p hase1#22 >> (groupTaskID=(sessionID=1817723153,replicationLinkID=(kVolSlot=XXXXXXXXX,srcCopyID=GlobalCopy(SiteUID(0xXXXXXXXXXXXX) >> 0) ,destCopyID=GlobalCopy(SiteUID Dochází také k trasování zásobníku replikace: 2020/03/17 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 3: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZNK6Kashya23DistributorGroupHandler21waitForMemoryIfNeededEv+0x5b2) [0xxxxxxxxxxxxx] 2020/03/17 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 4: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZN6Kashya23DistributorGroupHandler25addSequencesToPhase1CacheENS_9SequencesERNS_15ReplicationModeE+0x939) 2020/03/17 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 5: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZN6Kashya23DistributorGroupHandler23handleSplittedSequencesENS_9SequencesERKNS_15ReplicationModeERKb+0x20a) 2020/03/17 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 6: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZN6Kashya23DistributorGroupHandler15handleSequencesENS_9SequencesERKNS_15ReplicationModeERKb+0x577) 2020/03/17 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 7: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZN6Kashya19Distributor_AO_IMPL23continueHandleSequencesENS_9SequencesENS_15ReplicationModeEbRKNS_10GridCopyIDE+0xf7) 2020/03/17 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 8: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZN6Kashya16SequencesRequest21continueHandleRequestERNS_28JournalRegulationRequestBase14RequestHandlerE+0x30b) 2020/03/17 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 9: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZN6Kashya31JournalRegulationThread_AO_IMPL9process_iERKNS_16GroupGridCopyRIDE+0x36f)
Cause
Resolution
Zástupné řešení: Změňte hodnotu t_phase1CacheMemoryThreadSleepTime vyladění na 5000. (Prodloužení čekací doby z 10 mikrosekund na 5 milisekund). Tím zajistíme, že nebudeme tvrdit, dokud vlákno nebude čekat na paměť po dobu 5 milisekund. Pokud problém přetrvává: 1. Shromážděte také protokoly produkčního pracoviště. Protože nám dá vědět množství dat odesílaných z výroby v době vydání. 2. Změňte hodnotu t_maxNoOfTriesToWaitForPhase1CacheMemory vyladění na 10. Poznámka: Tyto úpravy se týkají pouze verzí 5.1.3 a vyšších. Pokud verze kódu není 5.1.3 nebo vyšší, je NUTNÉ upgradovat RecoverPoint na nejnovější kód, aby bylo možné tyto úpravy využít. Řešení: Technický tým společnosti Dell EMC tento problém v současné době zkoumá. Stále probíhá vytvoření trvalé opravy. Obraťte se na středisko zákaznické podpory Dell EMC nebo na zástupce technické podpory a uveďte ID tohoto řešení.