yasichi
3 Zinc

Live Opticsで出力されるレイテンシについて

ソリューションへジャンプ

Live Opticsで出力される2種類のLatencyについてご教示ください。

VMware環境をLive Opticsで性能データ収集を行い、Live OpticsからダウンロードしたExcelを確認しているのですが、その中の以下2つのシートのPeak Write/Read Latencyに大きく違いが出ている結果になっています。それぞれどこの待ち時間を表しているのでしょうか?

 ESX Performance
 VM Performance

以下KBのesxtopでみえる「DAVG」がESX PerformanceのLatencyで、「GAVG」がVM PerformanceのLatencyでしょうか?
https://kb.vmware.com/s/article/1008205?lang=ja

 


また、ESX PerformanceのLatencyはそれほどでもないのですが、VM PerformanceのLatencyが大きくなっており、ESXのPeak CPU %が100%に近い数値という状況なのですが、これはESXのCPUネックによりKAVGが大きくなった可能性があると考えられますでしょうか?

 

0 件の賞賛
1 解決策

受理された解決策
kwmt
4 Tellurium

Re: Live Opticsで出力されるレイテンシについて

ソリューションへジャンプ

LiveOptics は vCenter 経由で vSphere API を通してパフォーマンスメトリックを取得するので厳密には ESXTOP のメトリックとは異なります。

ESX Performance と VM Performance の Latency の元となる値は恐らく、
datastore.totalreadlatency.average
datastore.totalwritelatency.average
virtualdisk.totalreadlatency.average
virtualdisk.totalwritelatency.average
等の複数の値で計算しているのでは?と考えております。

vCenter 内で値は 20s 間隔で丸められて、
さらに Live Optics の Collector からの取得時に ESXi ホスト情報は丸められるのと、
VM Performance は vCenter から 1 時間ごとに 20s のサンプルを取得してそれの集計がレポートとして出力されるため、
ESXTOP やリアルタイムで vCenter のチャートで見る時とは傾向が異なる可能性があります。

 

私は Live Optics で取得する数値は、全体を俯瞰して極端なボトルネックやアンバランスを見つけるツールとして活用し、
そこで見つけたボトルネック等が本当に重大な問題なのかどうかは、改めてお客様と ESXTOP や vCenter のチャート、vROps があればダッシュボードを確認させてもらうなどで詳細をチェックするようにしています。
※ あくまで無償のプリセールスツールとしての活用の範囲内ですが...

 

> また、ESX PerformanceのLatencyはそれほどでもないのですが、VM PerformanceのLatencyが大きくなっており、
> ESXのPeak CPU %が100%に近い数値という状況なのですが、これはESXのCPUネックによりKAVGが大きくなった可能性があると考えられますでしょうか?

ここ数年で取得した環境の中で同様の傾向がみられるものが多数ありました。

ホスト側の CPU が 100% 近くに張り付いており、ゲスト側の IO 処理に CPU が割り当てられず、ゲストでの IO が大幅に処理待ちで遅延し、
一方ホスト側ではゲストの IO が遅れているので IO 負荷がかからず遅延が無い、という感じです。

VDI の高負荷時(ブートストーム・ログインストーム等)や、夜間の一斉バッチ処理などでこうした傾向を見てきました。
Live Optics レポートの時間軸での各種グラフで見比べてみると、Excel で確認できたボトルネックが想定されるものか、想定外のものかが分かります。

ご参考まで、、、

元の投稿で解決策を見る

4 返答(返信)
kwmt
4 Tellurium

Re: Live Opticsで出力されるレイテンシについて

ソリューションへジャンプ

LiveOptics は vCenter 経由で vSphere API を通してパフォーマンスメトリックを取得するので厳密には ESXTOP のメトリックとは異なります。

ESX Performance と VM Performance の Latency の元となる値は恐らく、
datastore.totalreadlatency.average
datastore.totalwritelatency.average
virtualdisk.totalreadlatency.average
virtualdisk.totalwritelatency.average
等の複数の値で計算しているのでは?と考えております。

vCenter 内で値は 20s 間隔で丸められて、
さらに Live Optics の Collector からの取得時に ESXi ホスト情報は丸められるのと、
VM Performance は vCenter から 1 時間ごとに 20s のサンプルを取得してそれの集計がレポートとして出力されるため、
ESXTOP やリアルタイムで vCenter のチャートで見る時とは傾向が異なる可能性があります。

 

私は Live Optics で取得する数値は、全体を俯瞰して極端なボトルネックやアンバランスを見つけるツールとして活用し、
そこで見つけたボトルネック等が本当に重大な問題なのかどうかは、改めてお客様と ESXTOP や vCenter のチャート、vROps があればダッシュボードを確認させてもらうなどで詳細をチェックするようにしています。
※ あくまで無償のプリセールスツールとしての活用の範囲内ですが...

 

> また、ESX PerformanceのLatencyはそれほどでもないのですが、VM PerformanceのLatencyが大きくなっており、
> ESXのPeak CPU %が100%に近い数値という状況なのですが、これはESXのCPUネックによりKAVGが大きくなった可能性があると考えられますでしょうか?

ここ数年で取得した環境の中で同様の傾向がみられるものが多数ありました。

ホスト側の CPU が 100% 近くに張り付いており、ゲスト側の IO 処理に CPU が割り当てられず、ゲストでの IO が大幅に処理待ちで遅延し、
一方ホスト側ではゲストの IO が遅れているので IO 負荷がかからず遅延が無い、という感じです。

VDI の高負荷時(ブートストーム・ログインストーム等)や、夜間の一斉バッチ処理などでこうした傾向を見てきました。
Live Optics レポートの時間軸での各種グラフで見比べてみると、Excel で確認できたボトルネックが想定されるものか、想定外のものかが分かります。

ご参考まで、、、

元の投稿で解決策を見る

yasichi
3 Zinc

Re: Live Opticsで出力されるレイテンシについて

ソリューションへジャンプ

kwmtさん

いつもご回答ありがとうございます。

Latencyの元となる値は明確には分からないのですね。

ただ同様な傾向で、実際にホストのCPUがボトルネックでゲストOSのIO待ちが発生しているケースが多数あるとのこと情報ありがとうございます。

Live Opticsの時間軸のグラフでもCPU使用率90%を超えている状態が見えているため、CPUのボトルネックとなっているタイミングのある可能性はありそうです。

 

0 件の賞賛
kwmt
4 Tellurium

Re: Live Opticsで出力されるレイテンシについて

ソリューションへジャンプ

ホストの CPU 利用率が 80% を超えたあたりから CPU Ready や CPU CO-Stop など割り当て待ちが劇的に増えてくるので、理想は 70% 前後で抑えたサイジングが CPU の旨味を引き出せるポイントになるかなと思います。

データストアやホストでの IO 遅延はそれほど高くなっていないのに VM の IO 遅延が大きいときは、
上記の CPU 割り当て待ちの影響が高いと思うので、負荷の高い時間帯の詳細を vCenter や ESXTOP で探ってみると切り分けできると思います。

yasichi
3 Zinc

Re: Live Opticsで出力されるレイテンシについて

ソリューションへジャンプ

情報ありがとうございます。参考にいたします。

0 件の賞賛