PowerFlex-VMware-Replikation verursacht hohe CPU-Auslastung und IO-Fehler
Summary: Bei der Ausführung von VMware Replication mit PowerFlex-SDCs kommt es auf dem ESXi-Host zu einer hohen Auslastung und I/O-Fehlern. Während der ersten Replikation von VMs mit VMware-Replikation unter Verwendung eines PowerFlex-Clusters kommt es auf dem ESXi-Host zu einer hohen CPU-Auslastung und zu I/O-Fehlern. ...
Symptoms
- VMware Replication 8.4 und niedriger
- Erste Replikation auf einer VM oder VMs
- Replizierte VM verfügt über viele VMDK-Festplatten (15+)
- Hohe CPU-Auslastung auf dem ESXi-Host, auf dem die VM gehostet wird, wenn die Replikation beginnt.
- Die Latenz auf zugeordneten Volumes des PowerFlex-Clusters steigt auf 20 bis 30 ms, möglicherweise sogar mehr.
- Andere VMs auf demselben Host, der nicht repliziert wird, können aus Anwendungsperspektive eine geringere Leistung und/oder I/O-Fehler aufweisen.
- Eine Ansicht der Festplattenwarteschlangen mit "esxtop" zeigt, dass der Host IO-Aufrufe an die Back-end-Volumes in die Warteschlange stellt.
- Die Backend-Komponenten (MDM/SDS) sind solide und zeigen keine Leistungsprobleme oder Fehler an.
- Der ESXi-Host mit replizierten VMs zeigt kurz nach Beginn der Replikation die folgenden Meldungen an:
2021-05-19T17:58:08.413Z cpu70:2098596)WARNING: ScsiDeviceIO: 1564: Device eui.1309fbc714390806ba291d4e0000001b performance has deteriorated. I/O latency increased from average value of 796 microseconds to 25965 microseconds.
2021-05-19T17:58:10.048Z cpu70:2098596)WARNING: ScsiDeviceIO: 1564: Device eui.1309fbc714390806ba2944570000005d performance has deteriorated. I/O latency increased from average value of 799 microseconds to 26019 microseconds.
2021-05-19T17:58:12.060Z cpu70:2098596)WARNING: ScsiDeviceIO: 1564: Device eui.1309fbc714390806ba291d3d0000000a performance has deteriorated. I/O latency increased from average value of 676 microseconds to 23641 microseconds.
Auswirkungen
Leistungsverschlechterung und I/O-Fehler aus Anwendungssicht
Cause
Während der ersten Replikation einer VM mit VMware Replication wird eine Prüfsumme jedes Blocks für jede .vmdk-Festplatte durchgeführt, die die VM konfiguriert hat. Während dieses Prüfsummenprozesses wird die I/O über einen einzigen Thread auf dem ESXi-Host gesendet, wodurch die Prüfsummen-I/O serialisiert wird. Dieser Thread wird auch für andere IO-Zwecke auf dem Host verwendet, was zu einer ungewöhnlichen CPU-Auslastung und Festplattenlatenz führt, was wiederum andere VMs auf demselben Host verlangsamt.
Resolution
VMware behebt dieses Problem in einer späteren Version von VMware Replication. Die Version steht noch nicht fest.