PowerFlex VMware 복제로 인해 높은 CPU 사용률 및 IO 오류 발생
Summary: PowerFlex SDC와 함께 VMware 복제를 실행할 때 ESXi 호스트에 높은 활용도 및 IO 오류가 발생함 PowerFlex 클러스터를 사용하여 VMware 복제로 VM을 처음 복제하는 동안 ESXi 호스트에서 높은 CPU 활용도와 IO 오류가 발생합니다.
Symptoms
- VMware 복제 8.4 이하
- VM
에 대한 초기 복제 - 복제된 VM에 많은 VMDK 디스크(15+)
가 있습니다. - 복제가 시작될 때 VM이 호스팅되는 ESXi 호스트의 CPU 사용률이 높습니다.
- PowerFlex 클러스터에서 매핑된 볼륨의 레이턴시가 20-30ms로 증가하며 그 이상일 수 있습니다.
- 복제되지 않는 동일한 호스트의 다른 VM은 애플리케이션 관점에서 성능 저하 및/또는 IO 오류를 볼 수 있습니다.
- "esxtop"이 있는 디스크 대기열 보기는 호스트가 백엔드 볼륨에 대한 IO 호출을 큐에 대기하고 있음을 보여 줍니다.
- 백엔드 구성 요소(MDM/SDS)가 견고하고 성능 문제나 오류가 표시되지 않습니다.
- 복제 VM이 있는 ESXi 호스트에 복제가 시작된 직후 다음 메시지가 표시됩니다.
2021-05-19T17:58:08.413Z cpu70:2098596)WARNING: ScsiDeviceIO: 1564: Device eui.1309fbc714390806ba291d4e0000001b performance has deteriorated. I/O latency increased from average value of 796 microseconds to 25965 microseconds.
2021-05-19T17:58:10.048Z cpu70:2098596)WARNING: ScsiDeviceIO: 1564: Device eui.1309fbc714390806ba2944570000005d performance has deteriorated. I/O latency increased from average value of 799 microseconds to 26019 microseconds.
2021-05-19T17:58:12.060Z cpu70:2098596)WARNING: ScsiDeviceIO: 1564: Device eui.1309fbc714390806ba291d3d0000000a performance has deteriorated. I/O latency increased from average value of 676 microseconds to 23641 microseconds.
영향
애플리케이션 관점에서 본 성능 저하 및 IO 오류
Cause
VMware Replication을 사용하여 VM을 처음 복제하는 동안 VM이 구성한 각 .vmdk 디스크에 대해 모든 블록의 체크섬을 수행합니다. 이 체크섬 프로세스 중에 IO가 ESXi 호스트의 단일 스레드를 통해 전송되므로 체크섬 IO가 직렬화됩니다. 이 스레드는 호스트의 다른 IO 용도로도 사용되어 비정상적인 CPU 사용률 및 디스크 대기 시간을 유발하여 동일한 호스트의 다른 VM 속도를 저하시킵니다.
Resolution
VMware는 최신 버전의 VMware 복제에서 이 문제를 수정하고 있습니다. 버전은 아직 미정입니다.