Isilon PowerScaleのごみ箱ディレクトリーのHealthCheckの失敗
Summary: 毎日のHealthCheck実行時に、ごみ箱ディレクトリーのHealthCheckが失敗します。
Symptoms
Cause
ごみ箱ディレクトリPQが10,240を超えるエントリーを蓄積すると、ごみ箱ディレクトリのヘルスチェックが失敗します。このHealthCheckの失敗は、次のようなごみ箱ディレクトリ サービスの正常性に関する多くの懸念が原因である可能性があります。-
(1)ごみ箱ディレクトリ サービスが動作を停止しました(クラッシュ/ハング/無効化)、またはサービスが古いごみ箱ディレクトリPQエントリーのクリーンアップに失敗しました。
(2)isi_job_d、isi_papi_d、TreeDeleteジョブなどのバックボーンOneFSサービスがクラッシュ/ハングしたか、特権ユーザーによって無効になっている。
(3)ごみ箱ディレクトリコンシューマーサービスが積極的にディレクトリをゴミ箱に入れているか、現在実行中のジョブがごみ箱されたディレクトリの削除をブロックしています。
Resolution
このKBは、利用可能なパッチがある場合に更新されます。
回避 策:
次の回避策は、前述の3つの原因カテゴリーに基づいて役立ちます。
(1)ごみ箱ディレクトリ サービスがクラッシュした場合、MCPはサービスを再起動する必要があります。ハングしたごみ箱ディレクトリ サービスの問題に関するバグをファイルしてください。ごみ箱ディレクトリ サービスが異常停止した場合は、一時的に解決するために強制終了/再開できます。ごみ箱ディレクトリ サービスisi_trash_dが特権ユーザーによって無効化されている場合、ごみ箱ディレクトリのHealthCheckの失敗は無視できます。ただし、ごみ箱ディレクトリ サービスがごみ箱ディレクトリの削除を完了できるように、必要に応じてサービスを有効にする必要があります。
isi services -a isi_trash_d enable
ごみ箱ディレクトリ サービスがPQの古いエントリーをクリーンアップできない場合は、次のコマンドを実行して古いPQエントリーをクリーンアップしてください。
/usr/libexec/isilon/isi_trash_pq_clean --cleanup [--debug]
また、前述のケースでは、キューに登録されたサービスのTreeDeleteジョブのジョブ状態クエリー間隔が30秒を超えないことを確認してください。
isi_gconfig -t trash-config job_query_interval=30
(2)バックボーンOneFSサービスまたはTreeDeleteジョブが異常停止した場合、または特権ユーザーによって無効化されている場合、ごみ箱ディレクトリーのHealthCheckの失敗は無視できます。ただし、必要に応じてバックボーンOneFSサービスまたはTreeDeleteジョブを有効にして、ごみ箱ディレクトリ サービスがごみ箱されたディレクトリーの削除を完了できるようにする必要があります。
(3)コンシューマー サービス(Lhotse Data Mover/書き込み可能スナップショット)がディレクトリーを積極的にゴミ箱に入れている場合、または現在実行中のジョブがごみ箱されたディレクトリーの削除をブロックしている場合は、ごみ箱ディレクトリーのHealthCheckエラーは無視できます。この場合、バックボーンOneFSサービスがボトルネックになります。
ごみ箱ディレクトリ サービスによってキューに登録された長時間実行されているTreeDeleteジョブが、大量の最近のごみ箱ディレクトリーの処理をブロックしている場合は、サービスによってキューに登録されているTreeDeleteジョブのジョブ タイムアウト制限とジョブ クエリー間隔を、より小さい値に調整できます。これらの調整可能な最小推奨値は次のとおりです。-
isi_gconfig -t trash-config job_timeout_limit=3600 isi_gconfig -t trash-config job_query_interval=30
ごみ箱ディレクトリ サービスは、サービスによってキューに登録されているTreeDeleteジョブをキャンセルするか、ジョブのタイムアウト制限後に一時停止することに注意してください。したがって、サービスが単独でキューに登録されているTreeDeleteジョブの大部分をキャンセルした場合、ジョブのタイムアウト制限を大きな値に増やすことができます。