RecoverPoint: Replikeringsprosessen krasjer når fase 1-hurtigminnet blir utilstrekkelig
Summary: Replikering vil krasje med at fase 1-hurtigbufferminnet ikke er tilstrekkelig, noe som fører til regulering av omstart.
Symptoms
Tilstanden til konsistensgruppen fortsetter å være i initialisering, men normal fordeling ser aldri ut til å starte og CG går ikke over til en aktiv tilstand. En replikeringsprosess krasjer med en deklarasjon logget når fase 1-hurtigbufferminne ikke er tilstrekkelig og målsiden for RecoverPoint-verktøy ikke kan skrive til måljournalen. Symptomer funnet i /home/kos/replication logs: Påstand: XXXX/XX/XX 18:59:25.693 - #2 - 17936/16776 - AssertLogSender: sending log: topic=DistributorGroupHandler, msg=Assertion failed: bIsPhase1CacheMemorySufficient Line 1825 File DistributorGroupHandlerPhase1.cc PID: 16776 Info: vanlig fase1 hurtigbufferminne ikke tilstrekkelig m_GroupGridCopyRID = (groupCopyRID=(kVolSlot=XXXXXXXXXX,globalCopyID=GlobalCopy(SiteUID(0xXXXXXXXXXXXXXX) 0) ),gridCopyID=0) XXXX/XX/XX 18:59:25.694 - #2 - 16911/16776 - RemoteLogSender: got event (uniqueId=0, eventTime=1584471565693987), EventID_KBOX_ASSERTION_FAILED(3031), SiteUID(0xxxxxxxxxxx), seDetails=Sender=replication, Topic=DistributorGroupHandler, msg=Assertion failed: bIsPhase1CacheMemorySufficient Line 1825 File DistributorGroupHandlerPhase1.cc PID: 16776 Info: vanlig fase 1 cache minne ikke tilstrekkelig m_GroupGridCopyRID = (groupCopyRID=(kVolSlot=XXXXXXXXXX,globalCopyID=GlobalCopy(SiteUID(0xXXXXXXXXXXX) 0) ),gridCopyID=0) Statistikk som viser høy dataflyt: XXXX/XX/XX 18:52:41.520 - #2 - 7676/7665 - AccumulatorFormatManager::p rintStatistics: Gruppestatistikk for gruppe Option( kVolSlot = XXXXXXXXXX groupUID = GroupCopy (1346840554 SiteUID (0xXXXXXXXXXXX) 0) gridID = 0): { STATISTIKK: name = InitNCOnePhaseSpeed kVolSlot = 1346840554 groupUID = GroupCopy (1346840554 SiteUID (0xXXXXXXXXXXXXX) 0) gridID = 0 beskrivelse: init nc en fase hastighet . STATISTIKK: name = InitNCOnePhaseSpeed kVolSlot = 1346840554 groupUID = GroupCopy (1346840554 SiteUID (0xXXXXXXXXXXXXX) 0) gridID = 0 8 sek vindu: Gjennomsnitt: 1,14e + 03 MB/sek STATISTIKK: name=InitNCOnePhaseSpeed kVolSlot = 1346840554 groupUID = GroupCopy(1346840554 SiteUID(0xXXXXXXXXXXXXX) 0) gridID = 0 77 sec window: Gjennomsnitt: 1,06e+03 MB/sek En konsistensgruppe er i initialiseringstilstand: 2020/03/17 18:56:05.070 - #2 - 7954/7665 - InitNCState::D istributeOnePhase: distribuere én fase m_groupID = (groupCopyRID=( kVolSlot=XXXXXXXXXX,globalCopyID=GlobalCopy(SiteUID(0xXXXXXXXXXXXX) 0) ),gridCopyID=0) Fase 1-forbruker for denne konsistensgruppen viser høyt forbruk på påstanden: XXXX/XX/XX 18:56:05.241 - #2 - 7954/7665 - MemoryManager: viscus på assert + nedtellinger = 2413/390 + min minnekapasitet = 433429 (fast 329537 fleksibel 103892) + fleksibel bruksplass = 37977/3864963 + bruk av lagringsplass = 37985/4194500 (maks 143544) >> 1160635626647715840 :p Hase1#22 >> (groupTaskID=(sessionID=1817723153,replicationLinkID=(kVolSlot=XXXXXXXXX,srcCopyID=GlobalCopy(SiteUID(0xXXXXXXXXXXXX) >> 0) ,destCopyID=GlobalCopy(SiteUID En Replication StackTrace oppleves også: 17.03.2020 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 3: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZNK6Kashya23DistributorGroupHandler21waitForMemoryIfNeededEv+0x5b2) [0xxxxxxxxxxxxx] 17.03.2020 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 4: /hjem/kos/kashya/arkiv/lib/libreplication_libsrelease.so(_ZN6Kashya23DistributorGroupHandler25addSequencesToPhase1CacheENS_9SequencesERNS_15ReplicationModeE+0x939) 17.03.2020 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 5: /hjem/kos/kashya/arkiv/lib/libreplication_libsrelease.so(_ZN6Kashya23DistributorGroupHandler23handleSplittedSequencesENS_9SequencesERKNS_15ReplicationModeERKb+0x20a) 17.03.2020 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 6: /hjem/kos/kashya/arkiv/lib/libreplication_libsrelease.so(_ZN6Kashya23DistributorGroupHandler15handleSequencesENS_9SequencesERKNS_15ReplicationModeERKb+0x577) 17.03.2020 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 7: /hjem/kos/kashya/arkiv/lib/libreplication_libsrelease.so(_ZN6Kashya19Distributor_AO_IMPL23continueHandleSequencesENS_9SequencesENS_15ReplicationModeEbRKNS_10GridCopyIDE+0xf7) 17.03.2020 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 8: /hjem/kos/kashya/arkiv/lib/libreplication_libsrelease.so(_ZN6Kashya16SequencesRequest21continueHandleRequestERNS_28JournalRegulationRequestBase14RequestHandlerE+0x30b) 17.03.2020 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 9: /hjem/kos/kashya/arkiv/lib/libreplication_libsrelease.so(_ZN6Kashya31JournalRegulationThread_AO_IMPL9process_iERKNS_16GroupGridCopyRIDE+0x36f)
Cause
Resolution
Omgåelse av problemet: Endre verdien på tweak t_phase1CacheMemoryThreadSleepTime til 5000. (Øker ventetiden fra 10 mikrosekunder til 5 millisekunder). Dette vil sikre at vi ikke vil hevde før tråden venter på minne i 5 millisekunder. Hvis problemet vedvarer: 1. Samle også inn loggene fra produksjonsstedet. Siden det vil gi oss beskjed om mengden data som sendes fra produksjonen på tidspunktet for problemet. 2. Endre verdien av tweak t_maxNoOfTriesToWaitForPhase1CacheMemory til 10. Merk: Disse justeringene er bare relevante for versjoner 5.1.3 og nyere. Hvis kodeversjonen ikke er 5.1.3 eller høyere, MÅ RecoverPoint oppgraderes til den nyeste koden for å bruke disse justeringene. Løsning: Dell EMC-teknikerne jobber nå med å undersøke dette problemet. En permanent korrigering pågår fortsatt. Kontakt kundestøttesenteret i Dell EMC eller servicerepresentanten din hvis du trenger hjelp, og oppgi denne løsnings-ID-en.