La replica PowerFlex VMware causa un elevato utilizzo della CPU ed errori IO
Summary: Quando si esegue la replica VMware con gli SDC PowerFlex, l'host ESXi riscontra un utilizzo elevato ed errori di I/O Durante la replica iniziale delle VM con VMware Replication utilizzando un cluster PowerFlex, l'host ESXi rileva un elevato utilizzo della CPU ed errori di I/O. ...
Symptoms
- VMware Replication 8.4 e versioni precedenti
- Replica iniziale su una o più macchine virtuali
- La macchina virtuale replicata ha molti dischi VMDK (15+)
- Elevato utilizzo della CPU sull'host ESXi in cui è ospitata la macchina virtuale all'inizio della replica.
- La latenza sui volumi mappati dal cluster PowerFlex aumenta in termini di latenza fino a 20-30 ms, forse di più.
- Altre macchine virtuali sullo stesso host che non vengono replicate potrebbero riscontrare una riduzione delle prestazioni e/o errori di I/O dal punto di vista dell'applicazione.
- Una visualizzazione delle code del disco con "esxtop" mostra che l'host sta accodando le chiamate I/O ai volumi back-end.
- I componenti back-end (MDM/SDS) sono solidi e non mostrano problemi di prestazioni o errori.
- L'host ESXi con macchine virtuali in replica presenta questi messaggi poco dopo l'inizio della replica:
2021-05-19T17:58:08.413Z cpu70:2098596)WARNING: ScsiDeviceIO: 1564: Device eui.1309fbc714390806ba291d4e0000001b performance has deteriorated. I/O latency increased from average value of 796 microseconds to 25965 microseconds.
2021-05-19T17:58:10.048Z cpu70:2098596)WARNING: ScsiDeviceIO: 1564: Device eui.1309fbc714390806ba2944570000005d performance has deteriorated. I/O latency increased from average value of 799 microseconds to 26019 microseconds.
2021-05-19T17:58:12.060Z cpu70:2098596)WARNING: ScsiDeviceIO: 1564: Device eui.1309fbc714390806ba291d3d0000000a performance has deteriorated. I/O latency increased from average value of 676 microseconds to 23641 microseconds.
Impatto
Riduzione delle prestazioni ed errori di I/O dal punto di vista dell'applicazione
Cause
Durante la replica iniziale di una macchina virtuale con VMware Replication, viene eseguito un checksum di ogni blocco per ogni disco .vmdk configurato dalla macchina virtuale. Durante questo processo di checksum, l'I/O viene inviato tramite un singolo thread sull'host ESXi, determinando la serializzazione dell'I/O di checksum. Questo thread viene utilizzato anche per altri scopi di I/O sull host, causando un utilizzo anomalo della CPU e latenza del disco che a sua volta rallenta altre macchine virtuali sullo stesso host.
Resolution
VMware risolve questo problema in una versione successiva di VMware Replication. La versione è ancora da definire.