NVP-vProxy. Виртуальная машина теряет подключение во время процесса удаления моментального снимка.
Summary: На этапе удаления моментальных снимков задания vProxy исходная виртуальная машина (ВМ) временно теряет подключение.
Symptoms
Журнал сессий резервного копирования vProxy показывает, когда делаются запросы на создание моментальных снимков:
YYYY/MM/DD HH:MM:SS TRACE: [NW_BUILD] Sending remove snapshot request to Snapshot Manager ... YYYY/MM/DD HH:MM:SS TRACE: [NW_BUILD] Sending remove snapshot request to Snapshot Manager ... YYYY/MM/DD HH:MM:SS INFO: [NW_BUILD] Remove snapshot request accepted by Snapshot Manager. YYYY/MM/DD HH:MM:SS INFO: [NW_BUILD] Remove snapshot request accepted by Snapshot Manager.
В vbackupd-snapmgr.log vProxy может отображаться ошибка, например:
YYYY/MM/DD HH:MM:SS INFO: Found virtual machine "VM-NAME" with MORef "vm-###". YYYY/MM/DD HH:MM:SS NOTICE: Virtual machine "VM-NAME" requires consolidation of its virtual disks. YYYY/MM/DD HH:MM:SS ERROR: Failed to complete consolidation of virtual disks for "VM-NAME" (vm-###): Unable to access file since it is locked YYYY/MM/DD HH:MM:SS WARN: Failed to consolidate virtual disks of virtual machine "VM-NAME" (vm-###): Failed to complete consolidation of virtual disks for "VM-NAME" (vm-###): Unable to access file since it is locked. YYYY/MM/DD HH:MM:SS WARN: Failed to consolidate virtual disks of virtual machine "VM-NAME" (vm-###): Failed to complete consolidation of virtual disks for "VM-NAME" (vm-###): Unable to access file since it is locked. YYYY/MM/DD HH:MM:SS NOTICE: Snapshot "snapshot-###" of virtual machine "VM-NAME" (vm-###) was removed.
Журналы событий в операционной системе виртуальной машины могут содержать ошибку, например:
The mirroring connection to "TCP://VM-NAME:5022" has timed out for database "out" after 10 seconds without a response. Check the service and network connections" Event ID: 1479.
В vmware.log виртуальной машины (находится в папке хранилища данных VMware с виртуальной машины) могут содержаться дополнительные сведения о процессе удаления моментального снимка.

Cause
Удаление моментальных снимков снижает количество операций ввода-вывода в секунду (IOPS) виртуальной машины. Это происходит из-за дополнительных блокировок хранилища файловой системы виртуальной машины (VMFS) из-за увеличения количества обновлений метаданных и дополнительной нагрузки ввода-вывода во время процесса удаления. Если нагрузка целевого хранилища превышает 30–40 % операций ввода-вывода, то при удалении моментальных снимков этот показатель может превысить 80 %. Этот всплеск часто вызывает задержку, снижая производительность приложений.
NVP vProxy. Поиск и устранение неполадок с моментальными снимками VMware во время резервного копирования NetWorker.
Resolution
Тестирование изоляции:
Чтобы локализовать проблему в зависимости от конкретного события удаления моментального снимка VMware, выполните следующие действия.- Войдите в vCenter Server или клиент vSphere.
- Создайте моментальный снимок на нужной виртуальной машине.
- Оставьте моментальный снимок на виртуальной машине на время, в течение которого выполняется задание vProxy на виртуальной машине.
- Инициируйте команду ping для IP-адреса/имени хоста виртуальной машины.
ping -D VM_IPWindows (PowerShell):
ping -t VM_IP | Foreach{"{0} - {1}" -f (Get-Date),$_} Обе указанные выше команды создают временную метку для пинга.
- Удалите моментальный снимок.
- Наблюдайте за виртуальной машиной во время удаления моментального снимка.
Для виртуальных машин, хранящихся в хранилище данных NFSv3:
При резервном копировании виртуальных машин, хранящихся в хранилище данных NFSv3, и возникновении проблем с подключением см. статью базы знаний VMware: https://kb.vmware.com/s/article/2010953VMware сообщает об этой конкретной проблеме как об устраненной при использовании хостов VMware ESXi версии 8.0u2b (или более поздней)
Для решений, использующих NFSv3, для ESXi версий до 8.0u2b доступны следующие варианты. Необходимо рассмотреть один из следующих вариантов.
- Разверните устройство NVP vProxy на том же хосте ESXi, что и оглушаемые виртуальные машины.
- Рассмотрите возможность использования протокола NFSv4 для монтирования хранилищ данных NFS.
- Настройте устройства vProxy, которые выполняют резервное копирование этих виртуальных машин, для использования NBD вместо HotAdd. Использование горячего добавления везде, где это возможно, предпочтительнее, так как оно обычно работает лучше, чем NBD. Высокая нагрузка на следующий рабочий день может негативно сказаться на сетях управления VMware. Этот параметр следует использовать только в том случае, если другие упомянутые параметры невозможны.
Additional Information
Дополнительные инструкции по поиску и устранению неисправностей.
- Проверяйте виртуальную машину на наличие моментальных снимков, пока не выполняется ни одно задание, и удалите все найденные снимки.
- Проверьте наличие потерянных моментальных снимков на виртуальной машине.
- Уменьшите количество одновременных резервных копий виртуальных машин, которые выполняются в этом хранилище данных/хосте. Рекомендации по производительности и масштабируемости см. в руководстве по интеграции NetWorker с VMware. https://www.dell.com/support/home/product-support/product/networker/docs
- Если во время консолидации моментальных снимков потребление ресурсов ЦП виртуальной машины резко возрастает, рассмотрите возможность увеличения резервирования ЦП для этой виртуальной машины.
- Переместите виртуальную машину на хост с большим количеством доступных ресурсов.
- Если виртуальная машина является устройством vCenter Server, см. Передовые подходы к резервному копированию и восстановлению сервера vCenter В руководстве по интеграции NetWorker с VMware: https://www.dell.com/support/home/product-support/product/networker/docs
Статья базы знаний VMware 1002836 | Удаление моментального снимка может надолго остановить работу виртуальной машины.
Просмотрите пакет поддержки VMware vCenter, обязательно соберите системные журналы ESXi для систем ESXi, на которых расположены виртуальные машины, на которых наблюдается этот признак. В папке \var\run\log\vmkernel.log хоста ESXi могут отображаться проблемы с задержкой хранения во время операций с моментальными снимками:
YYYY-MM-DDTHH:mm:SS cpu10:2098132)WARNING: ScsiDeviceIO: 1498: Device naa.############# performance has deteriorated. I/O latency increased from average value of 1429 microseconds to 29874 microseconds.
Для дальнейшего расследования необходимо привлечь поставщика систем хранения данных.