PowerFlex VMware-replicatie veroorzaakt hoog CPU-gebruik en IO-fouten
Summary: Bij het uitvoeren van VMware-replicatie met PowerFlex SDC's ervaart de ESXi-host veel gebruiks- en IO-fouten Tijdens de initiële replicatie van VM's met VMware-replicatie met behulp van een PowerFlex-cluster ziet de ESXi-host veel CPU-gebruik en IO-fouten. ...
Symptoms
- VMware-replicatie 8.4 en lager
- Eerste replicatie op een VM of VM's
- Gerepliceerde VM heeft veel VMDK-schijven (15+)
- Hoog CPU-gebruik op de ESXi-host waar de VM wordt gehost wanneer de replicatie begint.
- Latentie op toegewezen volumes van PowerFlex-cluster neemt toe in latentie tot 20-30 ms, mogelijk meer.
- Andere VM's op dezelfde host die niet wordt gerepliceerd, kunnen verminderde prestaties en/of IO-fouten zien vanuit het perspectief van de applicatie.
- Een weergave van schijfwachtrijen met "esxtop" laat zien dat de host IO-oproepen in de wachtrij plaatst voor de back-endvolumes.
- De backend-componenten (MDM/SDS) zijn solide en vertonen geen prestatieproblemen of fouten.
- ESXi-host met replicerende VM's heeft deze berichten kort nadat de replicatie begint:
2021-05-19T17:58:08.413Z cpu70:2098596)WARNING: ScsiDeviceIO: 1564: Device eui.1309fbc714390806ba291d4e0000001b performance has deteriorated. I/O latency increased from average value of 796 microseconds to 25965 microseconds.
2021-05-19T17:58:10.048Z cpu70:2098596)WARNING: ScsiDeviceIO: 1564: Device eui.1309fbc714390806ba2944570000005d performance has deteriorated. I/O latency increased from average value of 799 microseconds to 26019 microseconds.
2021-05-19T17:58:12.060Z cpu70:2098596)WARNING: ScsiDeviceIO: 1564: Device eui.1309fbc714390806ba291d3d0000000a performance has deteriorated. I/O latency increased from average value of 676 microseconds to 23641 microseconds.
Impact
Prestatievermindering en IO-fouten vanuit applicatieperspectief
Cause
Tijdens de initiële replicatie van een VM met VMware Replication wordt een checksum uitgevoerd van elk blok voor elke .vmdk-schijf die de VM heeft geconfigureerd. Tijdens dit checksumproces wordt de IO verzonden via één thread op de ESXi-host, waardoor de checksum-IO wordt geserialiseerd. Deze thread wordt ook gebruikt voor andere IO-doeleinden op de host, waardoor abnormaal CPU-gebruik en schijflatentie ontstaan, wat op zijn beurt andere VM's op dezelfde host vertraagt.
Resolution
VMware lost dit op in een latere versie van VMware Replication. De versie is nog steeds TBD.