La replicación de VMware de PowerFlex provoca una alta utilización de la CPU y errores de I/O
Summary: Cuando se ejecuta la replicación de VMware con SDC de PowerFlex, el host ESXi experimenta una alta utilización y errores de I/O Durante la replicación inicial de VM con VMware Replication mediante un clúster de PowerFlex, el host ESXi experimenta una alta utilización de CPU y errores de I/O. ...
Symptoms
- VMware Replication 8.4 y versiones anteriores
: replicación inicial en una máquina virtual o máquinas virtuales
: la máquina virtual replicada tiene muchos discos VMDK (15+):
alta utilización de CPU en el host ESXi donde se aloja la máquina virtual cuando comienza la replicación.
- La latencia en los volúmenes asignados del clúster de PowerFlex aumenta en latencia a 20-30 ms, posiblemente más.
- Otras máquinas virtuales en el mismo host que no se están replicando pueden ver una disminución del rendimiento y/o errores de E/S desde la perspectiva de la aplicación.
- Una vista de las colas de discos con "esxtop" muestra que el host está poniendo en cola las llamadas de E/S a los volúmenes de back-end.
- Los componentes del back-end (MDM/SDS) son sólidos y no muestran ningún problema o error de rendimiento.
- El host ESXi con VM en replicación recibe estos mensajes poco después de que comienza la replicación:
2021-05-19T17:58:08.413Z cpu70:2098596)WARNING: ScsiDeviceIO: 1564: Device eui.1309fbc714390806ba291d4e0000001b performance has deteriorated. I/O latency increased from average value of 796 microseconds to 25965 microseconds.
2021-05-19T17:58:10.048Z cpu70:2098596)WARNING: ScsiDeviceIO: 1564: Device eui.1309fbc714390806ba2944570000005d performance has deteriorated. I/O latency increased from average value of 799 microseconds to 26019 microseconds.
2021-05-19T17:58:12.060Z cpu70:2098596)WARNING: ScsiDeviceIO: 1564: Device eui.1309fbc714390806ba291d3d0000000a performance has deteriorated. I/O latency increased from average value of 676 microseconds to 23641 microseconds.
Impacto
Degradación del rendimiento y errores de I/O desde la perspectiva de las aplicaciones
Cause
Durante la replicación inicial de una VM con VMware Replication, realiza una suma de comprobación de cada bloque para cada disco .vmdk que la VM configuró. Durante este proceso de suma de comprobación, la I/O se envía a través de un único subproceso en el host ESXi, lo que provoca que la I/O de la suma de comprobación se serialice. Este subproceso también se utiliza para otros propósitos de I/O en el host, lo que provoca una utilización anormal de la CPU y latencia del disco, lo que, a su vez, ralentiza otras máquinas virtuales en el mismo host.
Resolution
VMware corrige esto en una versión posterior de VMware Replication. La versión aún está por determinar.