PowerScale:ジョブ エンジン データベースがロックされている、または連続するまでの待機時間が長いと報告されている
概要: 大規模クラスター上のジョブ エンジン レポート データベース(reports.db)の保護レベルによっては、レポート データベースへのアクセスに問題が発生する可能性があります。
この記事は次に適用されます:
この記事は次には適用されません:
この記事は、特定の製品に関連付けられていません。
すべての製品パージョンがこの記事に記載されているわけではありません。
現象
ジョブが何度も待機状態になります
データベースの更新が完了するまでに長い時間がかかっています。
の
症例1:
ジョブ コーディネーターが、ノードを頻繁に切り替えます。
データベースの更新が完了するまでに長い時間がかかっています。
の
isi_job_d.log と messages.logでは、長い待機時間、データベースのロック、ジョブ コーディネーターがノードをジャンプする可能性に関するメッセージが頻繁に表示されます
症例1:
isi_job_d.log アップデートが成功した場合に長時間の待機を報告します。
isi_job_d[45179]: Reports database update (job state) succeeded but took 11272 ms現象2:
isi_job_d.log レポート データベースがロックされている:
isi_job_d[97274]: Failed to update Jobs (state): database is locked症状3:
ジョブ コーディネーターが、ノードを頻繁に切り替えます。
2018-05-02T02:00:48Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[31517]: Becoming job engine coordinator 2018-05-02T02:11:26Z <24.5> cluster01-33(id52) cluster01-33 isi_job_d[36865]: Becoming job engine coordinator 2018-05-02T02:25:39Z <24.5> cluster01-33(id52) cluster01-33 isi_job_d[37310]: Becoming job engine coordinator 2018-05-02T02:36:25Z <24.5> cluster01-37(id56) cluster01-37 isi_job_d[77098]: Becoming job engine coordinator 2018-05-02T02:38:24Z <24.5> cluster01-37(id56) cluster01-37 isi_job_d[77167]: Becoming job engine coordinator 2018-05-02T02:43:33Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[32917]: Becoming job engine coordinator 2018-05-02T02:59:58Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33518]: Becoming job engine coordinator 2018-05-02T03:02:44Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33782]: Becoming job engine coordinator 2018-05-02T03:08:02Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33969]: Becoming job engine coordinator
原因
- ジョブ エンジン レポート データベース(
reports.db)は、実行時間の長いジョブが多数の更新を生成しているため、常に更新されます。 - ファイルに対するすべての更新は、クラスター全体で6回実行されます。保護レベルを下げると、アップデートが速くなるように見えます。
- 一時停止した時間に応じて
isi_papi_dでは、コーディネーターがデータベースへの書き込み (ログ記録) でタイムアウトすることが予想されます。また、成功する場合もありますが、書き込みに必要以上に時間がかかったことをログに記録し、ログをisi_job_d.logどちらの場合も。
の現在の保護レベルを決定するには、次の手順を実行します。
reports.db
isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db
cluster01-16# isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db POLICY W LEVEL PERFORMANCE COAL ENCODING FILE IADDRS 8x 8 6x concurrency off UTF-8 reports.db <25,14,1575794508288:512>, <26,17,484528026624:512>, <26,31,924241684480:512>, <27,31,145164204544:512>, <28,30,2451893562880:512>, <29,29,6440579584:512> ct: 1506750730 rt: 0 ************************************************* * IFS inode: [ 25,14,1575794508288:512, 26,17,484528026624:512, 26,31,924241684480:512, 27,31,145164204544:512, 28,30,2451893562880:512, 29,29,6440579584:512 ] ************************************************* ... * Protection Policy: 8x * Target Protection: 6x <-- six times protection
解決方法
この問題は、Dellエンジニアリングにより調査中です。この記事は、詳細が明らかになり次第更新されます
この問題を回避するには、次のコマンドを実行して、ジョブ レポート データベースの保護レベルを次のように変更します。
「自動管理」を[all]に設定すると、次のSmartPoolsジョブが再ストライピングされることがある
これを回避するには、[Automatically Manage Protection]を[files_at_default]に設定することをお勧めします
「files_at_default」に設定すると、SmartPoolsジョブは手動で管理されているファイルをバイパスします。つまり、ジョブは終了します
この問題を回避するには、次のコマンドを実行して、ジョブ レポート データベースの保護レベルを次のように変更します。
- 実行中のジョブをすべて一時停止します。次のコマンドを実行して、実行中のジョブがないことを確認します。
isi job status
- ジョブ エンジンを無効にして確認する
isi_job_dがすべてのノードで使用不可:
isi services -a isi_job_d disable isi_for_array -sX 'ps auxww |grep -i isi_job_d |grep -v grep'
- の保護レベルの変更
reports.db3xランダム アクセス レイアウト:
isi set -r -g reprotect -a random -p 3x -F /ifs/.ifsvar/modules/jobengine/reports.db
- 次のコマンドを再度実行すると、
reports.db変更されました:
isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db cluster01-16# isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db POLICY W LEVEL PERFORMANCE COAL ENCODING FILE IADDRS 3x 3 3x random off UTF-8 reports.db <25,14,1575794508288:512>, <26,31,924241684480:512>, <29,16,157594713088:512> ct: 1506750730 rt: 0 ************************************************* * IFS inode: [ 25,14,1575794508288:512, 26,31,924241684480:512, 29,16,157594713088:512 ] ************************************************* *... * Protection Policy: 3x * Target Protection: 3x
- ジョブ エンジンを有効にします。
isi services -a isi_job_d enable isi_for_array -sX 'ps auxww |grep -i isi_job_d |grep -v grep'
- ジョブを再開します。メッセージ
isi_job_d.log収まるはずです。
reports.db すぐに3倍になります。ただし、一部のユーザーは、「デフォルト」ではなく「すべて」のファイルを処理するようにSmartPoolsジョブを構成することができます。
- フル ログ:
[xus25@elvis 2021-09-24-003]$ cat local/isi_storagepool_settings Automatically Manage Protection: all <<<< Automatically Manage Io Optimization: all
- ライブ クラスター上
steven-8220-1# isi storagepool settings view Automatically Manage Protection: all <<<< Automatically Manage Io Optimization: all
「自動管理」を[all]に設定すると、次のSmartPoolsジョブが再ストライピングされることがある
reports.db 6倍または8倍のミラーに戻ります
これを回避するには、[Automatically Manage Protection]を[files_at_default]に設定することをお勧めします
「files_at_default」に設定すると、SmartPoolsジョブは手動で管理されているファイルをバイパスします。つまり、ジョブは終了します
reports.db を、指定した保護レベルに置き換えます。その他の情報
以下に、このトピックに関連した役立つ可能性のある推奨リソースをいくつか紹介します。
対象製品
PowerScale, Isilon製品
Isilon, Isilon NL410文書のプロパティ
文書番号: 000066019
文書の種類: Solution
最終更新: 17 9月 2025
バージョン: 16
質問に対する他のDellユーザーからの回答を見つける
サポート サービス
お使いのデバイスがサポート サービスの対象かどうかを確認してください。