NVP-vProxy: La macchina virtuale perde la connessione durante il processo di rimozione della snapshot.
Summary: Durante la fase di rimozione delle istantanee di un processo vProxy, la macchina virtuale (VM) di origine perde temporaneamente la connettività.
Symptoms
Il registro della sessione di backup di vProxy mostra quando vengono effettuate richieste di istantanee:
YYYY/MM/DD HH:MM:SS TRACE: [NW_BUILD] Sending remove snapshot request to Snapshot Manager ... YYYY/MM/DD HH:MM:SS TRACE: [NW_BUILD] Sending remove snapshot request to Snapshot Manager ... YYYY/MM/DD HH:MM:SS INFO: [NW_BUILD] Remove snapshot request accepted by Snapshot Manager. YYYY/MM/DD HH:MM:SS INFO: [NW_BUILD] Remove snapshot request accepted by Snapshot Manager.
Il vbackupd-snapmgr.log vProxy potrebbe mostrare un errore, ad esempio:
YYYY/MM/DD HH:MM:SS INFO: Found virtual machine "VM-NAME" with MORef "vm-###". YYYY/MM/DD HH:MM:SS NOTICE: Virtual machine "VM-NAME" requires consolidation of its virtual disks. YYYY/MM/DD HH:MM:SS ERROR: Failed to complete consolidation of virtual disks for "VM-NAME" (vm-###): Unable to access file since it is locked YYYY/MM/DD HH:MM:SS WARN: Failed to consolidate virtual disks of virtual machine "VM-NAME" (vm-###): Failed to complete consolidation of virtual disks for "VM-NAME" (vm-###): Unable to access file since it is locked. YYYY/MM/DD HH:MM:SS WARN: Failed to consolidate virtual disks of virtual machine "VM-NAME" (vm-###): Failed to complete consolidation of virtual disks for "VM-NAME" (vm-###): Unable to access file since it is locked. YYYY/MM/DD HH:MM:SS NOTICE: Snapshot "snapshot-###" of virtual machine "VM-NAME" (vm-###) was removed.
I registri eventi sul sistema operativo della VM possono mostrare un errore, ad esempio:
The mirroring connection to "TCP://VM-NAME:5022" has timed out for database "out" after 10 seconds without a response. Check the service and network connections" Event ID: 1479.
Il vmware.log della VM (disponibile nella cartella del datastore VMware dalla VM) può contenere ulteriori informazioni sul processo di rimozione delle snapshot.

Cause
La rimozione delle istantanee riduce l'input/output al secondo (IOPS) delle VM. Ciò si verifica a causa di blocchi di storage VMFS (Virtual Machine File System) aggiuntivi dovuti a un aumento degli aggiornamenti dei metadati e all'aggiunta di carico IOP durante il processo di rimozione. Se lo storage di destinazione viene eseguito al di sopra del 30-40% di carico IOP, la rimozione delle snapshot può spingerlo oltre l'80%. Questo picco spesso causa latenza, compromettendo le prestazioni delle applicazioni.
NVP vProxy: Risoluzione dei problemi relativi alle istantanee VMware durante i backup di NetWorker.
Resolution
Test di isolamento:
Per isolare il problema dall'evento di rimozione di un'istantanea VMware specifico, attenersi alla seguente procedura:- Accedere a vCenter Server o vSphere Client.
- Creare una snapshot sulla VM in questione.
- Lasciare la snapshot sulla VM per un periodo di tempo pari all'esecuzione di un processo vProxy sulla VM.
- Avviare un comando ping sull'indirizzo IP/nome host della VM.
ping -D VM_IPWindows (PowerShell):
ping -t VM_IP | Foreach{"{0} - {1}" -f (Get-Date),$_} Entrambi i comandi precedenti assegnano un timestamp al ping.
- Rimuovere l'istantanea.
- Osservare la VM durante la rimozione dell'istantanea.
Per le VM archiviate in un datastore NFSv3:
Se si esegue il backup di VM archiviate in un datastore NFSv3 e si osservano problemi di connessione, consultare l'articolo dellaKB di VMware: https://kb.vmware.com/s/article/2010953VMware segnala questo problema specifico come risolto quando si utilizzano host VMware ESXi 8.0u2b (o versioni successive)
Le seguenti opzioni sono disponibili per le soluzioni che utilizzano NFSv3 per le versioni ESXi precedenti alla 8.0u2b. È necessario prendere in considerazione una delle seguenti opzioni.
- Implementare un appliance NVP vProxy sullo stesso host ESXi delle macchine virtuali che vengono stordite.
- Prendere in considerazione l'utilizzo del protocollo NFSv4 per il mounting dei datastore NFS.
- Configurare gli appliance vProxy che eseguono il backup di queste macchine virtuali in modo che utilizzino NBD anziché HotAdd. Laddove possibile, è preferibile utilizzare l'aggiunta a caldo, in quanto in genere offre prestazioni migliori rispetto a NBD. Un carico NBD elevato può influire negativamente sulle reti di gestione VMware. Questa opzione deve essere eseguita solo se le altre opzioni menzionate non sono possibili.
Additional Information
Ulteriori procedure di risoluzione dei problemi:
- Verificare la presenza di istantanee nella macchina virtuale mentre non è in esecuzione alcun processo e rimuovere quelle trovate.
- Verificare la presenza di snapshot orfane sulla VM.
- Ridurre il numero di backup simultanei delle VM che si verificano su tale datastore/host. Consultare il documento NetWorker VMware Integration Guide per consigli su prestazioni e scalabilità. https://www.dell.com/support/home/product-support/product/networker/docs
- Se le risorse della CPU della macchina virtuale presentano un picco significativo durante il consolidamento delle snapshot, prendere in considerazione l'aumento della prenotazione della CPU per tale macchina virtuale.
- Spostare la macchina virtuale su un host con più risorse disponibili.
- Se la macchina virtuale è vCenter Server Appliance, vedere Best practice per il backup e il restore di vCenter Server nella NetWorker VMware Integration Guide: https://www.dell.com/support/home/product-support/product/networker/docs
1002836 della KB VMware | La rimozione di un'istantanea può arrestare una macchina virtuale per un lungo periodo di tempo.
Esaminare il pacchetto di supporto VMware vCenter e assicurarsi di raccogliere i registri di sistema ESXi per i sistemi ESXi che ospitano le VM che hanno osservato questo sintomo. \var\run\log\vmkernel.log dell host ESXi potrebbe mostrare problemi di latenza di storage durante le operazioni di snapshot:
YYYY-MM-DDTHH:mm:SS cpu10:2098132)WARNING: ScsiDeviceIO: 1498: Device naa.############# performance has deteriorated. I/O latency increased from average value of 1429 microseconds to 29874 microseconds.
Il fornitore dello storage deve essere coinvolto per ulteriori indagini.