PowerFlex VMware-replikering fører til høy CPU-utnyttelse og I/O-feil
Summary: Når du kjører VMware-replikering med PowerFlex SDC-er, opplever ESXi-verten høy utnyttelse og I/O-feil Under den første replikeringen av virtuelle maskiner med VMware-replikering ved hjelp av en PowerFlex-klynge, oppdager ESXi-verten høy CPU-utnyttelse og I/O-feil. ...
Symptoms
- VMware Replication 8.4 og lavere
- Første replikering på en VM eller VMs
- Replicated VM har mange VMDK disker (15+)
– Høy CPU-utnyttelse på ESXi-verten der VM-en er driftet når replikering begynner.
- Ventetid på tilordnede volumer fra PowerFlex-klynge øker i ventetid til 20-30 ms, muligens mer.
- Andre virtuelle maskiner på samme vert som ikke replikeres, kan oppleve redusert ytelse og/eller I/O-feil fra applikasjonsperspektivet.
- En visning av diskkøer med "esxtop" viser at verten legger I/O-kall i kø til backend-volumene.
- Backend-komponentene (MDM / SDS) er solide og viser ingen ytelsesproblemer eller feil.
- ESXi-vert med replikerende VM-er har disse meldingene kort tid etter at replikering begynner:
2021-05-19T17:58:08.413Z cpu70:2098596)WARNING: ScsiDeviceIO: 1564: Device eui.1309fbc714390806ba291d4e0000001b performance has deteriorated. I/O latency increased from average value of 796 microseconds to 25965 microseconds.
2021-05-19T17:58:10.048Z cpu70:2098596)WARNING: ScsiDeviceIO: 1564: Device eui.1309fbc714390806ba2944570000005d performance has deteriorated. I/O latency increased from average value of 799 microseconds to 26019 microseconds.
2021-05-19T17:58:12.060Z cpu70:2098596)WARNING: ScsiDeviceIO: 1564: Device eui.1309fbc714390806ba291d3d0000000a performance has deteriorated. I/O latency increased from average value of 676 microseconds to 23641 microseconds.
Innvirkning
Redusert ytelse og I/O-feil fra applikasjonsperspektivet
Cause
Under den første replikeringen av en virtuell maskin med VMware Replication, utføres det en kontrollsum for hver blokk for hver .vmdk-disk VM-en har konfigurert. Under denne kontrollsumprosessen sendes I/O-en gjennom én enkelt tråd på ESXi-verten, noe som fører til serialisering av kontrollsummen. Denne tråden brukes også til andre I/O-formål på verten, noe som forårsaker unormal CPU-bruk og diskventetid, noe som igjen bremser andre virtuelle maskiner på samme vert.
Resolution
VMware fikser dette i en senere versjon av VMware Replication. Versjonen er fortsatt TBD.