PowerFlex VMware-replikering orsakar hög processoranvändning och IO-fel
Summary: När du kör VMware Replication med PowerFlex SDC:er har ESXi-värden hög användning och IO-fel Under den första replikeringen av virtuella maskiner med VMware-replikering via ett PowerFlex-kluster ser ESXi-värden hög CPU-användning och IO-fel. ...
Symptoms
– VMware-replikering 8.4 och senare
– Inledande replikering på en virtuell dator eller virtuella datorer
– Replikerad virtuell dator har många VMDK-diskar (15+)
– Hög CPU-användning på ESXi-värden där den virtuella datorn finns när replikeringen börjar.
- Svarstiden på mappade volymer från PowerFlex-klustret ökar latensen till 20–30 ms, möjligen mer.
- Andra virtuella datorer på samma värd som inte replikeras kan se minskade prestanda och/eller I/O-fel ur programperspektivet.
- En vy över diskköer med "esxtop" visar att värden köar I/O-anrop till serverdelsvolymerna.
- Backend-komponenterna (MDM/SDS) är solida och visar inga prestandaproblem eller fel.
- ESXi-värden med replikering av virtuella datorer har dessa meddelanden strax efter att replikeringen har påbörjats:
2021-05-19T17:58:08.413Z cpu70:2098596)WARNING: ScsiDeviceIO: 1564: Device eui.1309fbc714390806ba291d4e0000001b performance has deteriorated. I/O latency increased from average value of 796 microseconds to 25965 microseconds.
2021-05-19T17:58:10.048Z cpu70:2098596)WARNING: ScsiDeviceIO: 1564: Device eui.1309fbc714390806ba2944570000005d performance has deteriorated. I/O latency increased from average value of 799 microseconds to 26019 microseconds.
2021-05-19T17:58:12.060Z cpu70:2098596)WARNING: ScsiDeviceIO: 1564: Device eui.1309fbc714390806ba291d3d0000000a performance has deteriorated. I/O latency increased from average value of 676 microseconds to 23641 microseconds.
Påverkan
Prestandaförsämring och IO-fel ur ett programperspektiv
Cause
Under den första replikeringen av en virtuell dator med VMware-replikering gör den en kontrollsumma för varje block för varje .vmdk-disk som den virtuella datorn har konfigurerat. Under den här kontrollsummeprocessen skickas I/O via en enda tråd på ESXi-värden, vilket gör att kontrollsummans IO serialiseras. Den här tråden används också för andra I/O-ändamål på värden, vilket orsakar onormal CPU-användning och diskfördröjning som i sin tur gör andra virtuella datorer långsammare på samma värd.
Resolution
VMware åtgärdar detta i en senare version av VMware Replication. Versionen är fortfarande TBD.