RecoverPoint. Группа консистентности переходит в состояние ошибки из-за ошибки «SYM не удалось найти набор моментальных снимков»
Summary: RecoverPoint. Группа консистентности переходит в состояние ошибки из-за [SYM не удалось найти набор моментальных снимков]
Symptoms
В канале группы консистентности возникает ошибка из-за того, что [SYM не удалось найти набор моментальных снимков], что приводит к переходу всей группы в состояние «включено без передачи».
Error: Один или несколько каналов cg_name группы настроены на репликацию моментальных снимков, и в процессе репликации на основе моментальных снимков произошла ошибка. Из хранилища были получены следующие ошибки:
Link = cg_name->cg_name_copy, error = [SYM failed to find snapset]
Признаки, найденные в журналах:
/files/home/kos/storage/result.log
ActiveXioArrayHelper_AO_IMPL::xioRefreshConsistentSnapshotFromDevice_i: xioRefreshConsistentSnapshotFromDevice Failed with res.faultString() = SYM failed to find snapset res.arrayRvCode() = e_API_FAILURE printCommand: methodName = sym.SystemRemoveSnapSet format = ((ssi)(ssi)(ssi)i) numArgs = 10 buffer = (( 0065ff5a961b41979c64b1998bf9xxxx xms 1 )( xxxxxb824ee14c94b5f708ced17f3b85 XIO-HO-C01 1 )( 6fbb339729954axxxxxxxxxx 1 ) 19558 ) XioConnection::executeCommand: Command execution fail. methodName = sym.SystemRemoveSnapSet m_client = 0x7f502dxxxxx server = 0x7f5xxxxxxxx URL: http://172.xx.xxx.xxx:11111/RPC2 this = 0x7f5030165xxxxx CleanEnvAndReturnRV: Operation failed. rv.faultString() = RPC failed at server. snapset_not_found env.fault_code = -500 XioArrayHelper: RPC failed at server. snapset_not_found, called from function: xioDeleteConsistentSnapshot:3212
/files/home/kos/control/result.log
2018/10/17 10:12:50.135 - #1 - 5040/4313 - WorkManager: GroupCopy(206327186 SiteUID(0x228e3ecc2dxxxxxx) 0): Action refreshArrayConsistentSnapshot failed! value.arrayRvCode() = e_API_FAILURE value.errorStrings() = [SYM failed to find snapset] 2018/10/17 10:12:50.550 - #2 - 5040/4313 - StateChange: lastComputedPipeTargetsMap. copy=GroupCopy(2063271xxx SiteUID(0x228e3ecc2xxxxxxx) 0) to copy= GlobalCopy(SiteUID(0x31ba0c434a00xxxxx) 0) pipe target=PT_CLOSED, reason=No exposed snap to replicate -> PT_CLOSED, reason=Array error
Cause
Из-за несоответствия между XtremIO и XMS RecoverPoint получает предыдущие записи от XMS при извлечении текущего списка моментальных снимков, которые необходимо отбросить.
Иногда получается неожиданное значение, и вместо предыдущего моментального снимка, который должен быть отброшен и который используется для удаления, в качестве текущего снимка используется моментальный снимок. В результате фактический моментальный снимок будет удален.
Из-за этого вызовы из массива начинают завершаться сбоем для группы, связанной со снимком, который был удален, что приводит к переходу канала копии в состояние ошибки [SYM не удалось найти snapset]. Из-за того, что канал группы не работает, вся группа консистентности переходит в состояние ошибки «Включено без передачи».
Resolution
Временное решение.
- Отключение и повторное включение группы консистентности
- Измените t_xioPeriodicalSnapCleanupGatherInterval настройки с 600000 на 600000000 (x1000) на всех рабочих станциях RPA. Это изменение приводит к тому, что инструмент очистки запускается один раз в неделю, а не каждые 10 минут, что снижает вероятность возникновения проблемы.
Резолюция:
Исправление этой проблемы доступно в XtremIO 4.0.27-1, XMS 6.2.1-36.
Additional Information
Затронутые конфигурации:
RecoverPoint Classic с массивом XtremIO (до XtremIO 4.0.27-1, XMS 6.2.1-36)