RecoverPoint для виртуальной машины: Цикл группы консистентности между состоянием инициализации и состоянием ошибки в среде масштабирования
Summary: RecoverPoint для виртуальной машины: Цикл группы консистентности между состоянием инициализации и состоянием ошибки в среде масштабирования
Symptoms
— группа консистентности зацикливается между состоянием инициализации и состоянием ошибки в среде
масштабирования, что приводит к недоступности репликации данных (DRU).
Признаки, обнаруженные в журналах:
ESX splitter logs:
Следующие журналы указывают на то, что чтение /vmfs/volumes/vsan:5xxxxxxxxxx-dxxxxxxxxxxxx не удалось, поэтому все тома RPVS в vSAN будут удалены.
spl_esx_discover_RPvStorage_clusters_in_datastore. Не удалось прочитать каталог /vmfs/volumes/vsan:5xxxxxxxxxxxxxxx-dxxxxxxxx, возвращено состояние Таймаут
update_rpvs_db: LUN 1 не сканировался при последнем просмотре устройства Обновление
RPVS_ClusterLuns_removeLunInfo: вызывается для LUN=1 (имя RPVS_Lun00001.vmdk). Идентификатор кластера=2xxxxxxxxxxxxxxx
update_rpvs_db: LUN 12 не сканировался при последнем просмотре устройства Обновление
RPVS_ClusterLuns_removeLunInfo: вызывается для LUN=12 (имя RPVS_Lun00012.vmdk). Идентификатор кластера=2xxxxxxxxxxxxxx
update_rpvs_db: LUN 13 не сканировался при последнем обновлении представления устройства...
* Процесс обнаружения RPVS завершается успешно, поэтому все тома RPVS добавляются обратно:
parse_vmdk_file: вызывается с файлом /vmfs/volumes/vsan:5xxxxxxxxxxxxxxxx/RPvStorage/4xxxxxxxxxxx/RPVS_Lun00001.vmdk
parse_vmdk_file: capacity=12000000, thinLun=0, flat_filename=RPVS_Lun00001-flat.vmdk, rawguid=0x6xxxxxxxxxxxxxxxxxx
RPVS_ClusterLuns_addLunInfo: добавлен LUN 1, кластер 4xxxxxxxxxxxxxxxxxx parse_vmdk_file: вызывается с файлом /vmfs/volumes/vsan:5xxxxxxxx-dxxxxxxxxxxxxxxxx/RPvStorage_23d5fb88838940xxx_010/RPVS_Lun00012.vmdk parse_vmdk_file: capacity=524288000, thinLun=0, flat_filename=RPVS_Lun00012-flat.vmdk, rawguid=0x6xxxxxxxxxxxxxxx RPVS_ClusterLuns_addLunInfo: добавлен LUN 12, кластер 2xxxxxxxxxxxxxxxxxx
* Журнал, указывающий на то, что процесс обнаружения RPVS занимает много времени
CommandExecuterBase_v_handleCommands_i: cmd 0x417fdde35040, cmd-execute>(CommandRPVSDiscovery), время выполнения 32585607 микросекунд, количество команд в очереди: 11 CommandExecuterBase_v_handleCommands_i: cmd 0x417fdde35040, cmd-execute>(CommandRPVSDiscovery), время выполнения 33277695 микросекунд, количество команд в очереди: 11 CommandExecuterBase_v_handleCommands_i: cmd 0x417fdde35040, cmd-execute>(CommandRPVSDiscovery), время выполнения 35834242 микросекунд, количество команд в очереди: 11 CommandExecuterBase_v_handleCommands_i: cmd 0x417fdde35040, cmd-execute>(CommandRPVSDiscovery), время выполнения 36488014 микросекунд, количество команд в очереди: 11 CommandExecuterBase_v_handleCommands_i: cmd 0x417fdde35040, cmd-execute>(CommandRPVSDiscovery), время выполнения 37767728 микросекунд, количество команд в очереди: 11 CommandExecuterBase_v_handleCommands_i: cmd 0x417fdde35040, cmd-execute>(CommandRPVSDiscovery), время выполнения 49355575 микросекунд, количество команд в очереди: 11 CommandExecuterBase_v_handleCommands_i: cmd 0x417fdde35040, cmd-execute>(CommandRPVSDiscovery), время выполнения 109257427 микросекундах, количество команд в очереди: 19
Затронуты все версии RP4VM
Cause
Разветвитель ESX сканирует том RPVS (журнал и репозиторий) каждый t_rpvsDiscoveryPeriodicTimerInterval (по умолчанию: 30) секунд.
Сканирование выполняется путем чтения /vmfs/volumes/ и обхода каждого каталога в нем в поисках RPVS_LunXXXXX.vmdk
Том RPVS находится в папке /vmfs/volumes/<datastore>/<cluster=id>/. В среде vSAN он будет находиться в /vmfs/volumes/vsan:<vsan-id>/<cluster=id>/ Если чтение любого каталога внутри /vmfs/volumes/ завершится сбоем (истечение времени ожидания, временная ошибка и т. д.),
это приведет к удалению всех томов RPVS в каталоге сбоя.
Если при любом последующем запуске процессу обнаружения rpvs удается прочитать и найти RPVS_LunXXXXX.vmdk, соответствующие тома RPVS будут добавлены обратно.
Именно по этой причине группа консистентности переключается между Error и Init.
Эта проблема усугубляется, когда большое количество хостов в сети vSAN одновременно считывают каталоги в /vmfs/volumes/.
Resolution
На каждом хосте ESX в кластере измените значение настройки разветвителя t_rpvsDiscoveryPeriodicTimerInterval
на случайное значение в диапазоне от 180 до 600 секунд и перезапустите kdriver.
ESX Splitter Tweak можно найти по адресу
/etc/kdriver/tweak/tweak.params.splitter или /etc/config/emc/rp/kdriver/tweak/tweak.params.splitter.
Решение.
В настоящее время специалисты технического отдела Dell EMC изучают эту проблему. Постоянное исправление по-прежнему разрабатывается. Обратитесь в центр поддержки заказчиков Dell EMC или к представителю сервисной службы за помощью и сообщите идентификатор этого решения.