RecoverPoint: Replikeringsprocessen kraschar när Phase1-cacheminnet blir otillräckligt
Summary: Replikeringen kraschar när phase1-cacheminnet inte är tillräckligt för kontroll vilket orsakar omstartsreglering.
Symptoms
Konsekvensgruppens tillstånd fortsätter att vara i initiering, men normaldistributionen verkar aldrig starta och CG övergår inte till ett aktivt tillstånd. En replikeringsprocess kraschar med en kontroll loggad, när Phase1-cacheminnet inte räcker till och målsidans RecoverPoint-enheter inte kan skriva till måljournalen. Symptom som hittats i /home/kos/replikeringsloggar: Påstående: XXXX/XX/XX 18:59:25.693 - #2 - 17936/16776 - AssertLogSender: skickar logg: topic=DistributorGroupHandler, msg=Assertion failed: bIsPhase1CacheMemorySufficient rad 1825 Fil DistributorGroupHandlerPhase1.cc PID: 16776 Info: vanligt phase1 cacheminne inte tillräckligt m_GroupGridCopyRID = (groupCopyRID=(kVolSlot=XXXXXXXXXX,globalCopyID=GlobalCopy(SiteUID(0xXXXXXXXXXXXXXX) 0) ),gridCopyID=0) XXXX/XX/XX 18:59:25.694 - #2 - 16911/16776 - RemoteLogSender: got event (uniqueId=0, eventTime=1584471565693987), EventID_KBOX_ASSERTION_FAILED(3031), SiteUID(0xxxxxxxxxxxxxxxxx), seDetails=Sender=replikering, Topic=DistributorGroupHandler, msg=Försäkran misslyckades: bIsPhase1CacheMemorySufficient rad 1825 Fil DistributorGroupHandlerPhase1.cc PID: 16776 Info: vanligt fas1 cacheminne inte tillräckligt m_GroupGridCopyRID = (groupCopyRID=(kVolSlot=XXXXXXXXXX,globalCopyID=GlobalCopy(SiteUID(0xXXXXXXXXXXX) 0) ),gridCopyID=0) Statistik som visar på högt dataflöde: XXXX/XX/XX 18:52:41.520 - #2 - 7676/7665 - AccumulatorFormatManager::p rintStatistics: Gruppstatistik för koncernen Option( kVolSlot = XXXXXXXXXX groupUID = GroupCopy(1346840554 SiteUID(0xXXXXXXXXXXX) 0) gridID = 0): { STATISTIK: name=InitNCOnePhaseSpeed kVolSlot = 1346840554 groupUID = GroupCopy(1346840554 SiteUID(0xXXXXXXXXXXXXX) 0) gridID = 0 beskrivning: init nc enfashastighet . STATISTIK: name=InitNCOnePhaseSpeed kVolSlot = 1346840554 groupUID = GroupCopy(1346840554 SiteUID(0xXXXXXXXXXXXXX) 0) gridID = 0 8 sek fönster: Genomsnitt: 1,14e + 03 MB/sek STATISTIK: name=InitNCOnePhaseSpeed kVolSlot = 1346840554 groupUID = GroupCopy(1346840554 SiteUID(0xXXXXXXXXXXXXX) 0) gridID = 0 77 sek fönster: Genomsnitt: 1,06 e + 03 MB/sek En konsekvensgrupp är i initieringstillstånd: 2020/03/17 18:56:05.070 - #2 - 7954/7665 - InitNCState::D istributeOnePhase: distribuera en fas m_groupID = (groupCopyRID=( kVolSlot=XXXXXXXXXX,globalCopyID=GlobalCopy(SiteUID(0xXXXXXXXXXXXX) 0) ),gridCopyID=0) Fas 1-konsumenten för den här konsekvensgruppen visar hög förbrukning på försäkran: XXXX/XX/XX 18:56:05.241 - #2 - 7954/7665 - MemoryManager: viscus på assert + nedräkningar = 2413/390 + minsta minnesbehov = 433429 (fast 329537 flexibel 103892) + flexibelt användningsutrymme = 37977/3864963 + Användning av poolutrymme = 37985/4194500 (max 143544) >> 1160635626647715840 :p hase1#22 >> (groupTaskID=(sessionID=1817723153,replicationLinkID=(kVolSlot=XXXXXXXXX,srcCopyID=GlobalCopy(SiteUID(0xXXXXXXXXXXXX) >> 0) ,destCopyID=GlobalCopy(SiteUID En Replication StackTrace upplevs också: 2020/03/17 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 3: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZNK6Kashya23DistributorGroupHandler21waitForMemoryIfNeededEv+0x5b2) [0xxxxxxxxxxxxx] 2020/03/17 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 4: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZN6Kashya23DistributorGroupHandler25addSequencesToPhase1CacheENS_9SequencesERNS_15ReplicationModeE+0x939) 2020/03/17 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 5: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZN6Kashya23DistributorGroupHandler23handleSplittedSequencesENS_9SequencesERKNS_15ReplicationModeERKb+0x20a) 2020/03/17 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 6: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZN6Kashya23DistributorGroupHandler15handleSequencesENS_9SequencesERKNS_15ReplicationModeERKb+0x577) 2020/03/17 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 7: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZN6Kashya19Distributor_AO_IMPL23continueHandleSequencesENS_9SequencesENS_15ReplicationModeEbRKNS_10GridCopyIDE+0xf7) 2020/03/17 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 8: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZN6Kashya16SequencesRequest21continueHandleRequestERNS_28JournalRegulationRequestBase14RequestHandlerE+0x30b) 2020/03/17 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 9: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZN6Kashya31JournalRegulationThread_AO_IMPL9process_iERKNS_16GroupGridCopyRIDE+0x36f)
Cause
Resolution
Alternativ lösning: Ändra värdet för tweak t_phase1CacheMemoryThreadSleepTime till 5000. (Ökar väntetiden från 10 mikrosekunder till 5 millisekunder). Detta säkerställer att vi inte kommer att assert förrän tråden väntar på minne i 5 millisekunder. Om problemet kvarstår: 1. Samla även in produktionsplatsloggarna. Eftersom det kommer att låta oss veta mängden data som skickas från produktionen vid tidpunkten för problemet. 2. Ändra värdet på tweak t_maxNoOfTriesToWaitForPhase1CacheMemory till 10. Obs! Dessa justeringar är endast relevanta för version 5.1.3 och senare. Om kodversionen inte är 5.1.3 eller senare MÅSTE RecoverPoint uppgraderas till den senaste koden för att dessa justeringar ska kunna användas. Lösning: Dell EMC Engineering undersöker problemet. En permanent lösning håller på att tas fram. Kontakta Dell EMC:s kundsupportcenter eller din kundtjänstrepresentant för att få hjälp. Hänvisa till det här lösnings-id:t.