PowerFlex 3.X: OSディスクへの書き込みが遅いと、MDMの問題が複数発生する可能性があります。
Summary: オペレーティング システム ディスクへの書き込みが遅いと、複数のMDMの問題が発生する可能性があります。
Symptoms
MDM上のオペレーティング システム ディスクが低速になった結果として、さまざまなシナリオが発生する可能性があります。
ScaleIO 3.0では、MDMメカニズムがより堅牢になり、OSディスクの速度が大幅に低下する問題をより適切に処理できるようになりました。(10+秒のレイテンシー)
書き込みに時間がかかりすぎるOSディスクでMDMが実行されている場合、次の現象が発生する可能性があります。
-
SDSをメンテナンス モードにすると、マスターMDMが切断されます。
-
再構築イベントが発生すると、マスターMDMと、場合によってはスレーブMDMも切断されます。
-
MDMスイッチオーバーが機能していません。スレーブMDMはマスターMDMの責任を引き継ぐことができないため、マスターMDMは存在しません。
-
「scli --query_cluster」の出力に、スレーブMDMがときどき同期されないと表示されます。
-
SDC書き込みIOエラー。
すべてのシナリオで、MDM trcログに「Harden too long」と表示されます。
08/12 03:36:42.336327 0x7f64207f4eb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 1360 ms 08/12 03:36:44.811987 0x7f6420668eb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 1840 ms 08/12 03:36:46.463661 0x7f642072eeb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 2210 ms
問題
MDMリポジトリーの書き込みがハード化のしきい値を超えると、MDMが同期されていないことを意味します。
つまり、MDMクラスターは同期されず、MDMプロセスが再起動します。
MDMがすばやく/繰り返し再起動する場合は、フェールオーバーを繰り返した後にMDMクラスターがダウンするなど、完全なデータ使用不可シナリオ(使用可能なマスターMDMがない場合)が発生する可能性があります。
Cause
マスターMDMがデータ ブロックの状態を変更する必要がある場合、マスターMDMはこれらの状態変更をMDMリポジトリー ファイルに書き込み、それらの変更をスレーブMDMに同期する必要があります。これらの書き込みが完了すると、MDMは変更がファイナライズされたことをSDSに通知し、プライマリー コピーからのみ(再構築が完了するまで)SDCに書き込みIOを処理できます。マスターMDMがローカル リポジトリーに変更を書き込むのに500ミリ秒(1/2秒)以上かかる場合、MDM trcログに「Harden too long」というメッセージが表示されます。これにより、MDMがSDSリクエストに十分に迅速に応答できず、SDCでIOエラーが発生する可能性があります。MDMは、IOが500ミリ秒未満でリポジトリーに書き込めるようになるまで、またはクラスター内でMDMスイッチの所有権が発生する10秒後にこの状態を維持します。
Resolution
解決策は、OSのディスク レイテンシーの問題を解決することです。
これには、次の理由が考えられます。
-
RAIDの再構築(14G Ready NodesではBOSSカードと2台のm.2 SATAドライブをRAID1に搭載)
-
ディスクの摩耗/経年劣化
-
OSディスクの不適切なサイズ設定/選択(HDD、低速/安価なSSDなど。通常はソフトウェアのみの構成のみ)
-
OSディスクコントローラ/ディスクファームウェアのバグ
-
ディスク障害/予測障害状態
-
しかし、最も一般的な原因は、OS ディスク上の無関係な IO 負荷です。
いずれの場合も、OSディスクのパフォーマンスを監視/プロファイリングする必要があります。
ディスクのレイテンシーは、sarまたはiostatによって監視できます。
最も簡単で、最も普遍的に利用できるツールはiostatです。
そのノードで
iostat -xtN 1
ミリ秒単位で報告される待機時間を確認します。
すべてのバージョンが影響を受けます。