PowerFlex VMware-replikering forårsager høj CPU-udnyttelse og IO-fejl
Summary: Når du kører VMware-replikering med PowerFlex SDC'er, oplever ESXi-værten høj udnyttelse og IO-fejl Under den indledende replikering af VM er med VMware-replikering ved hjælp af en PowerFlex-klynge oplever ESXi-værten høj CPU-udnyttelse og IO-fejl. ...
Symptoms
- VMware Replication 8.4 og derunder
- Indledende replikering på en VM eller VM'er
- Replikeret VM har mange VMDK-diske (15+)
- Høj CPU-udnyttelse på ESXi-værten, hvor VM'en hostes, når replikeringen begynder.
- Latenstid på kortlagte diskenheder fra PowerFlex-klyngen øges i latenstid til 20-30 ms, muligvis mere.
– Andre VM er på den samme vært, som ikke replikeres, kan opleve nedsat ydeevne og/eller IO-fejl fra programmets perspektiv.
- En visning af diskkøer med "esxtop" viser, at værten står i kø IO-opkald til backend-diskenhederne.
- Backend-komponenterne (MDM / SDS) er solide og viser ingen ydelsesproblemer eller fejl.
- ESXi-vært med replikering af VM'er har disse meddelelser kort efter, at replikering begynder:
2021-05-19T17:58:08.413Z cpu70:2098596)WARNING: ScsiDeviceIO: 1564: Device eui.1309fbc714390806ba291d4e0000001b performance has deteriorated. I/O latency increased from average value of 796 microseconds to 25965 microseconds.
2021-05-19T17:58:10.048Z cpu70:2098596)WARNING: ScsiDeviceIO: 1564: Device eui.1309fbc714390806ba2944570000005d performance has deteriorated. I/O latency increased from average value of 799 microseconds to 26019 microseconds.
2021-05-19T17:58:12.060Z cpu70:2098596)WARNING: ScsiDeviceIO: 1564: Device eui.1309fbc714390806ba291d3d0000000a performance has deteriorated. I/O latency increased from average value of 676 microseconds to 23641 microseconds.
Påvirkning
Forringet ydeevne og IO-fejl set fra et applikationsperspektiv
Cause
Under den indledende replikering af en VM med VMware-replikering udfører den en kontrolsum for hver blok for hver .vmdk-disk, som VM'en har konfigureret. Under denne kontrolsumproces sendes IO'en gennem en enkelt tråd på ESXi-værten, hvilket får kontrolsum-IO'en til at blive serialiseret. Denne tråd bruges også til andre IO-formål på værten, hvilket forårsager unormal CPU-udnyttelse og diskventetid, hvilket igen gør andre VM er på den samme vært langsommere.
Resolution
VMware retter dette i en senere version af VMware Replication. Versionen er stadig TBD.