Сбой переключения при отказе при тестировании SRA: Не удалось создать снимки реплик устройств
Summary:
Адаптер репликации хранилища (SRA) Symmetrix Remote Data Facility (SRDF) Сбой тестового переключения на резервный ресурс для нескольких групп защиты в плане восстановления.
Error:
Failed to create snapshots of replica devices. Не удалось создать моментальный снимок реплики группы консистентности . Команда SRA «testFailoverStart» завершилась сбоем для группы консистентности xx. Не удалось извлечь информацию о репликации. Дополнительные сведения об ошибке см. в журналах EmcSrdfSra.
...
Symptoms
При выполнении тестового переключения SRDF SRA на резервный ресурс для плана восстановления, содержащего несколько групп защиты, тестовое переключение на резервный ресурс для нескольких групп защиты завершилось сбоем с ошибкой:
Error: Failed to create snapshots of replica devices. Failed to create snapshot of replica consistency group xx. SRA command 'testFailoverStart' failed for consistency group xx. Failed to fetch replication information. Please check EmcSrdfSra logs for more information on the error.
Переменная EmcSrdfSraGlobalOptions.xml и EmcSrdfSraTestFailoverConfig.xml Файлы настроены правильно.
Тестовое переключение при отказе также завершалось сбоем, когда затронутые группы защиты добавлялись в отдельные планы восстановления и выполнялось тестовое переключение на резервный ресурс с той же ошибкой.
Cause
Обнаружено, что группы устройств на стороне восстановления после сбоев (DR) перешли в недопустимое состояние. Это видно на примере symdg list выходных данных команды с сервера SYMAPI сайта восстановления. Это и является причиной сбоя тестового переключения SRA при отказе.
В symapi.log отображаются следующие ошибки:
EMC:SMBASE emcSymValidateGroup Group (DG_NAME) invalid; TGT dev (0x 200), Symm <array SN> ; reason; SYMAPI_C_DEV_IS_VVOL (The action cannot be performed because the specified device is a VVol device)
Было обнаружено, что было настроено и добавлено в группы устройств (DG) несколько устройств VVol. Позже они были удалены из массива. Группы устройств зависят от хостов и определяются пользователем, поэтому удаление устройств непосредственно из дискового массива PowerMax не приводит к обновлению группы устройств.
В DG существовала удаленная информация об устройстве, и DG переходила в недопустимое состояние. Когда тестовое переключение SRA на резервный ресурс было выполнено на недопустимом контроллере DG, произошел сбой.
Resolution
- Перед выполнением тестового переключения при отказе SRA на этом сервере рекомендуется убедиться в том, что DG действителен.
- Если указанный выше шаг пропущен и тестовое переключение SRA при отказе было выполнено и завершилось сбоем, приведенный ниже план действий поможет восстановить операцию переключения SRA на резервный ресурс.
- Удалите DG и заново создайте его с нуля. Это более быстрый вариант.
-
symdg delete DGNAME -force symdg create DGNAME -type RDF2 --> RDF2 since the test failover will always happen on the Recovery Site. symdg -g DGNAME -sid <SN> add dev <dev_name>
-
ИЛИ
- Экспортируйте группу в файл, удалите устройство-нарушитель, удалите текущий DG и снова импортируйте DG из файла.
-
symdg export DGNAME -file <filename.txt> Update the file to contain only the devices that should be in the DG symdg delete DGNAME -force symdg import DGNAME -file <filename.txt>
-
- Выполните тестовое переключение SRA на резервный ресурс.