RecoverPoint. Происходит сбой процесса репликации, когда становится недостаточно памяти кэш-памяти фазы 1
Summary: Произойдет сбой репликации, если кэш-память фазы 1 не будет подтверждена, что приведет к регулированию перезагрузки.
Symptoms
Состояние группы консистентности по-прежнему находится в стадии инициализации, но нормальное распределение, по-видимому, никогда не начинается, а группа консистентности не переходит в активное состояние. Происходит сбой процесса репликации с записью утверждения в журнал, когда кэш-памяти фазы 1 недостаточно и устройства RecoverPoint целевой стороны не могут записать данные в целевой журнал. Признаки неисправности в журналах /home/kos/replication: Утверждение: XXXX/XX/XX 18:59:25.693 - #2 - 17936/16776 - AssertLogSender: отправка журнала: topic=DistributorGroupHandler, msg=Assertion failed: bIsPhase1CacheMemorySufficient Строка 1825 DistributorGroupHandlerPhase1.cc PID: 16776 Информация: обычной фазы 1 недостаточно кэш-памяти m_GroupGridCopyRID = (groupCopyRID=(kVolSlot=XXXXXXXXXX,globalCopyID=GlobalCopy(SiteUID(0xXXXXXXXXXXXXXX) 0) ),gridCopyID=0) XXXX/XX/XX 18:59:25.694 - #2 - 16911/16776 - RemoteLogSender: получено событие (uniqueId=0, eventTime=1584471565693987), EventID_KBOX_ASSERTION_FAILED(3031), SiteUID(0xxxxxxxxxxxxxxxxx), seDetails=Sender=репликация, Topic=DistributorGroupHandler, msg=Ошибка утверждения: bIsPhase1CacheMemoryEnough Строка 1825 DistributorGroupHandlerPhase1.cc PID файла: 16776 Информация: обычной фазы 1 кэш-памяти недостаточно m_GroupGridCopyRID = (groupCopyRID=(kVolSlot=XXXXXXXXXX,globalCopyID=GlobalCopy(SiteUID(0xXXXXXXXXXXX) 0) ),gridCopyID=0) Статистика, показывающая высокий поток данных: XXXX/XX/XX 18:52:41.520 - #2 - 7676/7665 - AccumulatorFormatManager::p rintStatistics: Групповая статистика для группы Option( kVolSlot = XXXXXXXXXX groupUID = GroupCopy(1346840554 SiteUID(0xXXXXXXXXXXX) 0) gridID = 0): { СТАТИСТИКА: name=InitNCOnePhaseSpeed kVolSlot = 1346840554 groupUID = GroupCopy(1346840554 SiteUID(0xXXXXXXXXXXXXX) 0) gridID = 0 description: инициализация NC однофазная скорость . СТАТИСТИКА: name=InitNCOnePhaseSpeed kVolSlot = 1346840554 groupUID = GroupCopy(1346840554 SiteUID(0xXXXXXXXXXXXXX) 0) gridID = 0 8-секундное окно: Средний: 1.14e + 03 МБ/с СТАТИСТИКА: name=InitNCOnePhaseSpeed kVolSlot = 1346840554 groupUID = GroupCopy(1346840554 SiteUID(0xXXXXXXXXXXXXX) 0) gridID = 0 Окно 77 сек: Средний: 1,06e + 03 МБ/с Группа консистентности находится в состоянии инициализации: 2020/03/17 18:56:05.070 - #2 - 7954/7665 - InitNCState::D istributeOnePhase: распределение одной фазы m_groupID = (groupCopyRID=( kVolSlot=XXXXXXXXXX,globalCopyID=GlobalCopy(SiteUID(0xXXXXXXXXXXXX) 0) ),gridCopyID=0) Потребитель фазы 1 для этой группы консистентности демонстрирует высокую потребляемость утверждения: XXXX/XX/XX 18:56:05.241 - #2 - 7954/7665 - MemoryManager: viscus on assert + обратный отсчет = 2413/390 + минимальное потребление памяти = 433429 (фиксированное 329537 гибкое 103892) + гибкое пространство использования = 37977/3864963 + Использование пространства пула = 37985/4194500 (макс. 143544) >> 1160635626647715840 :p hase1#22 >> (groupTaskID=(sessionID=1817723153,replicationLinkID=(kVolSlot=XXXXXXXXX,srcCopyID=GlobalCopy(SiteUID(0xXXXXXXXXXXXX) >> 0) ,destCopyID=GlobalCopy(SiteUID Кроме того, выполняется StackTrace репликации: 2020/03/17 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 3: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZNK6Kashya23DistributorGroupHandler21waitForMemoryIfNeededEv+0x5b2) [0xxxxxxxxxxxxx] 2020/03/17 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 4: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZN6Kashya23DistributorGroupHandler25addSequencesToPhase1CacheENS_9SequencesERNS_15ReplicationModeE+0x939) 2020/03/17 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 5: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZN6Kashya23DistributorGroupHandler23handleSplittedSequencesENS_9SequencesERKNS_15ReplicationModeERKb+0x20a) 2020/03/17 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 6: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZN6Kashya23DistributorGroupHandler15handleSequencesENS_9SequencesERKNS_15ReplicationModeERKb+0x577) 2020/03/17 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 7: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZN6Kashya19Distributor_AO_IMPL23continueHandleSequencesENS_9SequencesENS_15ReplicationModeEbRKNS_10GridCopyIDE+0xf7) 2020/03/17 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 8: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZN6Kashya16SequencesRequest21continueHandleRequestERNS_28JournalRegulationRequestBase14RequestHandlerE+0x30b) 2020/03/17 18:56:05.278 - #0 - 7954/7665 - StackTrace: errno=0 9: /home/kos/kashya/archive/lib/libreplication_libsrelease.so(_ZN6Kashya31JournalRegulationThread_AO_IMPL9process_iERKNS_16GroupGridCopyRIDE+0x36f)
Cause
Resolution
Временное решение. Измените значение t_phase1CacheMemoryThreadSleepTime настройки на 5000. (Увеличение времени ожидания с 10 микросекунд до 5 миллисекунд). Это гарантирует, что мы не будем утверждать до тех пор, пока поток не будет ожидать память в течение 5 миллисекунд. Если проблема не устранена, выполните следующие действия. 1. Также соберите журналы производственной площадки. Так как он позволит нам узнать объем данных, отправляемых из рабочей среды на момент возникновения проблемы. 2. Измените значение t_maxNoOfTriesToWaitForPhase1CacheMemory настройки на 10. Примечание. Эти изменения относятся только к версиям 5.1.3 и выше. Если версия кода отличается от версии 5.1.3 или выше, RecoverPoint необходимо обновить до последней версии для использования этих настроек. Разрешение. В настоящее время специалисты технического отдела Dell EMC изучают эту проблему. Постоянное исправление по-прежнему разрабатывается. Обратитесь в центр поддержки заказчиков Dell EMC или к представителю сервисной службы за помощью и сообщите идентификатор этого решения.