A replicação do VMware PowerFlex causa alta utilização da CPU e erros de E/S
Summary: Ao executar a replicação do VMware com SDCs do PowerFlex, o host do ESXi enfrenta alta utilização e erros de E/S Durante a replicação inicial de VMs com replicação VMware usando um cluster do PowerFlex, o host do ESXi vê alta utilização da CPU e erros de E/S. ...
Symptoms
- VMware Replication 8.4 e inferior
- Replicação inicial em uma VM ou VMs
- A VM replicada tem muitos discos VMDK (15+)
- Alta utilização da CPU no host do ESXi em que a VM está hospedada quando a replicação começa.
- A latência em volumes mapeados do cluster do PowerFlex aumenta em latência para 20-30 ms, possivelmente mais.
- Outras VMs no mesmo host que não estão sendo replicadas podem ver redução de desempenho e/ou erros de E/S do ponto de vista do aplicativo.
- Uma visualização das filas de discos com "esxtop" mostra que o host está enfileirando chamadas de E/S para os volumes de back-end.
- Os componentes de back-end (MDM/SDS) são sólidos e não apresentam problemas ou erros de desempenho.
- O host do ESXi com VMs replicantes tem estas mensagens logo após o início da replicação:
2021-05-19T17:58:08.413Z cpu70:2098596)WARNING: ScsiDeviceIO: 1564: Device eui.1309fbc714390806ba291d4e0000001b performance has deteriorated. I/O latency increased from average value of 796 microseconds to 25965 microseconds.
2021-05-19T17:58:10.048Z cpu70:2098596)WARNING: ScsiDeviceIO: 1564: Device eui.1309fbc714390806ba2944570000005d performance has deteriorated. I/O latency increased from average value of 799 microseconds to 26019 microseconds.
2021-05-19T17:58:12.060Z cpu70:2098596)WARNING: ScsiDeviceIO: 1564: Device eui.1309fbc714390806ba291d3d0000000a performance has deteriorated. I/O latency increased from average value of 676 microseconds to 23641 microseconds.
Impacto
Degradação do desempenho e erros de E/S do ponto de vista do aplicativo
Cause
Durante a replicação inicial de uma VM com VMware Replication, ele faz uma soma de verificação de cada bloco para cada disco .vmdk que a VM configurou. Durante esse processo de soma de verificação, a E/S é enviada por meio de um único thread no host do ESXi, fazendo com que a E/S de soma de verificação seja serializada. Esse thread também é usado para outros fins de E/S no host, causando utilização anormal da CPU e latência de disco que, por sua vez, deixa outras VMs mais lentas no mesmo host.
Resolution
A VMware está corrigindo isso em uma versão posterior do VMware Replication. A versão ainda está TBD.