PowerProtect. Резервное копирование TSDM завершается сбоем при ABV0016 на определенном хосте ESXi
Summary: В политике защиты виртуальных машин (ВМ) периодически происходят сбои резервного копирования во время запланированного выполнения с идентификатором критического сообщения ABV0016.
Symptoms
ABV0016: VM Direct engine 'localhost' is unable to back up the virtual machine 'my-vm-name' on vCenter 'my-vcernter-name' because of a vCenter API issue. The VM Direct engine cannot complete the backup of this virtual machine because of a vCenter API operation did not complete successfully. To troubleshoot this issue: 1) Verify that the vCenter can be reached. 2) If the vCenter is busy, wait for some activities to complete and then retry the operation. 3) Verify that the virtual machine exists on the vCenter. Read Less Unable to create LWD snapshot. vCenter task 'task-#####' failed: VimFault: dp.vpx.fault.DpdThrottleLimitExceeded.summary'
YYYY-MM-DD HH:MM:SS TRACE: [a30a8b8946958a4e;8d8911578980c3ff] SDM Data Mover: SDM Full Sync: Closed file 'VM_Image_Daily_NON-SQL-uklpdtsbk001-f4723/PLCTLP-2832693c-377a-4f7e-952f-ffc1fdade2b1/Backups/c57b4143-f4c3-4760-86f5-7448429205ae/501efcd4-1f7e-5c9d-b98c-43633d01aa4c/lastSdmDiskBackupPath.json'. YYYY-MM-DD HH:MM:SS TRACE: [a30a8b8946958a4e;8d8911578980c3ff] SDM Data Mover: SDM Full Sync: Checking if the last path exists which was used as a baseline for each disk ... YYYY-MM-DD HH:MM:SS INFO: [a30a8b8946958a4e;8d8911578980c3ff] SDM Data Mover: SDM Full Sync: Full sync is not needed, skipping. YYYY-MM-DD HH:MM:SS TRACE: [a30a8b8946958a4e;8d8911578980c3ff] SDM Data Mover: Create LWD Snapshot: vCenter SOAP call 'DpSnapshot' was accepted. YYYY-MM-DD HH:MM:SS ERROR: [a30a8b8946958a4e;8d8911578980c3ff] SDM Data Mover: Create LWD Snapshot: The vCenter task failed: dp.vpx.fault.DpdThrottleLimitExceeded.summary YYYY-MM-DD HH:MM:SS ERROR: [a30a8b8946958a4e;8d8911578980c3ff] SDM Data Mover: Create LWD Snapshot: The vCenter task for 'Create SDM Snapshot' completed with state 'error'. YYYY-MM-DD HH:MM:SS ERROR: [a30a8b8946958a4e;8d8911578980c3ff] SDM Data Mover: Create LWD Snapshot: Unable to create SDM snapshot. YYYY-MM-DD HH:MM:SS TRACE: [a30a8b8946958a4e;8d8911578980c3ff] SDM Data Mover: Create LWD Snapshot: Retrying in 500ms... ... YYYY-MM-DD HH:MM:SS TRACE: [a30a8b8946958a4e;8d8911578980c3ff] SDM Data Mover: Create LWD Snapshot: vCenter SOAP call 'DpSnapshot' was accepted. YYYY-MM-DD HH:MM:SS ERROR: [a30a8b8946958a4e;8d8911578980c3ff] SDM Data Mover: Create LWD Snapshot: The vCenter task failed: dp.vpx.fault.DpdThrottleLimitExceeded.summary YYYY-MM-DD HH:MM:SS ERROR: [a30a8b8946958a4e;8d8911578980c3ff] SDM Data Mover: Create LWD Snapshot: The vCenter task for 'Create SDM Snapshot' completed with state 'error'. YYYY-MM-DD HH:MM:SS ERROR: [a30a8b8946958a4e;8d8911578980c3ff] SDM Data Mover: Create LWD Snapshot: Unable to create SDM snapshot. YYYY-MM-DD HH:MM:SS ERROR: [a30a8b8946958a4e;8d8911578980c3ff] SDM Data Mover: Create LWD Snapshot: Unsuccessful after 98 attempts over 1m0.158271936s. YYYY-MM-DD HH:MM:SS TRACE: [a30a8b8946958a4e;8d8911578980c3ff] SDM Data Mover: Snapshot failure can't be remedied by a Full sync.Во время запланированного выполнения веб-клиент vSphere отображает по крайней мере один хост ESXi с непрерывными ошибками на основе LWD.
В выходных данных пакета поддержки vCenter /var/log/vmware/vsan-health/vsanvcmgmtd-*.log показано, что хост ESXi определяется как устаревший хост DPD:
YYYY-MM-DD HH:MM:SS warning vsanvcmgmtd[11593] [vSAN@6876 sub=dps] [opId=0849c23c] Found legacy DPD on host: host-29. Applying legacy throttle limit: '10', instead of regular throttle limit: '20'
Cause
Если в кэше vCenter vSAN Health Service содержится устаревшая информация о версии или пустая запись, хост ESXi классифицируется как устаревший. Регулирование PowerProtect Data Manager по умолчанию отправляет 18 сессий резервного копирования SDM на каждый хост ESXi. Хост ESXi обрабатывает первые 10 резервных копий SDM, но vCenter не будет выполнять любое последующее резервное копирование SDM, указывая на превышение лимита DPM.
Resolution
В vSphere 8.0 U1 реализованы усовершенствования, которые при определенных условиях автоматически обновляют кэш службы vSAN Health. Рекомендуется выполнить модернизацию до vSphere 8.0 U1, чтобы воспользоваться преимуществами этих усовершенствований и предотвратить определенные признаки кэша службы vSAN Health.
Временное решение
VMwareУбедитесь, что на сервере vCenter и всех хостах ESXi в кластере установлена версия 7.0 U3d или более поздняя. Очистите кэш, перезапустив службу vSAN Health устройства сервера vCenter Server Appliance (VCSA) через сеанс SSH:
service-control --restart vsan-health
При необходимости обратитесь в службу поддержки VMware для получения дополнительной информации или помощи по работе со службой vSAN Health.
Additional Information
Временное решение проблемы в PowerProtect Data Manager.
В PowerProtect Data Manager существует способ уменьшить значение ограничения для сессий резервного копирования TSDM на всех хостах ESXi. Этот способ можно использовать в качестве временного временного решения при модернизации хостов ESXi или работе со службой поддержки VMware.
- Убедитесь, что не запущены задания защиты.
- Войдите в PowerProtect Data Manager и перейдите к категории sudo: sudo su -
- Создайте копию файла vmdirect.env: cp vmdirect.env vmdirect.env.orig
- Файл vmdirect.env в открытой среде: vi /opt/emc/vmdirect/unit/vmdirect.env
- Измените значение переменной среды "MAX_SDM_BACKUP_SESSIONS_PER_HOST" на 10 (вместо 18) и сохраните файл.
- Перезапустите службу VISD .
systemctl restart visd.service
Пример результата:
my-ppdm:/opt/emc/vmdirect/unit # cp vmdirect.env vmdirect.env.orig
my-ppdm:/opt/emc/vmdirect/unit # ls -l
total 20
-rwxr-xr-x 1 root root 397 Nov 2 22:48 visd.service
-rwxr-xr-x 1 root root 2225 Nov 2 22:48 vmdirect.env
-rwx------ 1 root root 2225 Apr 21 09:39 vmdirect.env.orig
-rwxr-xr-x 1 root root 360 Nov 2 22:48 vpod-nas.service
-rwxr-xr-x 1 root root 334 Nov 2 22:48 vpod.service
my-ppdm:/opt/emc/vmdirect/unit # vi vmdirect.env
my-ppdm:/opt/emc/vmdirect/unit # cat vmdirect.env | grep SDM
SDM_ENABLED_EXTERNAL_PROXIES=false
export SDM_ENABLED_EXTERNAL_PROXIES
MAX_SDM_SESSIONS_PER_HOST=20
export MAX_SDM_SESSIONS_PER_HOST
MAX_SDM_BACKUP_SESSIONS_PER_HOST=10
export MAX_SDM_BACKUP_SESSIONS_PER_HOST
MAX_ESX_SDM_TOTAL_DISKS=40
export MAX_ESX_SDM_TOTAL_DISKS
my-ppdm:/opt/emc/vmdirect/unit # systemctl restart visd.service
my-ppdm:/opt/emc/vmdirect/unit # systemctl status visd.service
● visd.service - VMDirect Infrastructure Services Daemon
Loaded: loaded (/usr/lib/systemd/system/visd.service; enabled; vendor preset: disabled)
Active: active (running) since Fri YYYY-04-21 09:42:38 PDT; 7s ago
Main PID: 67488 (visd)
Tasks: 16 (limit: 512)
Memory: 23.2M
CPU: 317ms
CGroup: /system.slice/visd.service
└─67488 /opt/emc/vmdirect/bin/visd -user admin -group app -p 9097 -nodemgmt -proxymgmt -vmdeployment -installclient -l
Apr 21 09:42:38 my-ppdm.my-domain.com systemd[1]: Started VMDirect Infrastructure Services Daemon.
Apr 21 09:42:38 my-ppdm.my-domain.com visd[67488]: INFO: Found GID 2000 (app) for group 'app'.
Apr 21 09:42:38 my-ppdm.my-domain.com visd[67488]: NOTICE: Effective group ID is set to 2000 (app).
Apr 21 09:42:38 my-ppdm.my-domain.com visd[67488]: INFO: Found UID 500 (admin) for user 'admin'.
Apr 21 09:42:38 my-ppdm.my-domain.com visd[67488]: NOTICE: Effective user ID is set to 500 (admin).
my-ppdm:/opt/emc/vmdirect/unit #