2 メッセージ
0
1601
【Isilon】ノード障害時の挙動(CPU使用率高騰)について
Isilonのノード障害時の挙動について確認させてください。
複数ノード(保護レベル:2N)から成るクラスタ構成において、ノードをリブートした際、
リブート後の数分間で全ノードのCPU使用率が高騰しました(80%以上、中には100%のノードも有)。
このCPU使用率高騰のタイミングでも、上位アクセスへのレイテンシには影響がないことから、
おそらく内部のリバランスにCPUが割かれていたと思われます。
この挙動はIsilonの仕様で、余っているCPUリソースをフル活用し最短でリバランスをかける仕様であると、
考えておりますが正しいでしょうか。
またその場合、リバランスに割くリソースは調整可能なのでしょうか。
(例えば、数分ではなく数時間掛かってもいいからゆっくりリバランスさせる。というような調整)
ご教示頂きたく、よろしくお願い致します。
ayas
Moderator
Moderator
•
6.5K メッセージ
0
2019年4月23日 23:00
fufufu.sさん
Node障害時にはIsilon内部でそのNodeにあるData をほかの生きているNodeからアクセスできるように
探し出し、そのDataをコピーして保護する動きをします。この動きをするのがSmartProtect機能ですが
そのなかでもflexprotectジョブそのメインを担っています。またIsilonのOS OneFSではNode間でのそれぞれのジョブのリソース管理をして偏りがないようにコントロールする機能があります。
おそらく今回はジョブがリブートしているNode内にあるDataを探して保護しようとしたためCPU使用率が高騰し、パンクしないでアクセスへの影響がなかったのはこのバランス機能が動いたためだと思います。
参考資料:https://support.emc.com/docu51125_White-Paper:-Isilon-OneFS-Job-Engine.pdf?language=en_US
Job エンジンによりCPU稼働をモニターしてバランスをとる動きしており、そしてJOB毎の
プライオリティ分けもUserにて可能(Page22 )ですができるだけDefaultで使うのがベストプラクティス(Page31)である旨記載があります。
上記設定でPriolityを変えるよりも(Data保護に関することなので。。)、Node障害時にアクセス遅延が起きないようにパフォーマンスを保つためのSmartConnectがあり、こちらの設定でもCPUのリバランスによる調節が可能なので安定稼働という点では安心です。
https://www.dellemc.com/de-de/collaterals/unauth/technical-guides-support-information/products/storage/h10719-isilon-onefs-technical-overview-wp.pdf Page5
参考資料:https://www.emc.com/collateral/hardware/white-papers/h8316-wp-smartconnect.pdf (SmartConnect 機能詳細Page11 )
CPUによるNode間のリバランスが可能でそのタイミングに関してもNetwork ConfigurationページのSetting タブから可能です。
fufufu.s
2 メッセージ
0
2019年5月7日 23:00
ayasさま
ご回答ありがとうございました。
ホワイトペーパを一読して、ジョブエンジンの調整の部分で気になった点を確認させて下さい。
クライアントのアクティビティを優先して、各ジョブのワーカースレッドを調整することで、
性能劣化を防いでいると理解しております。
しかし、FlexProtectジョブのようなファイルシステム維持に直結するジョブは、
クライアントIOよりも優先して、最優先で迅速に実行されるものと考えておりますが、
認識あっているでしょうか。
また、調整メカニズムやインパクト管理閾値といった情報は、公開可能なのでしょうか。
以上、ご教示頂きたくよろしくお願い致します。