PowerScale:ジョブ エンジン データベースがロックされている、または連続するまでの待機時間が長いと報告されている

概要: 大規模クラスター上のジョブ エンジン レポート データベース(reports.db)の保護レベルによっては、レポート データベースへのアクセスに問題が発生する可能性があります。

この記事は次に適用されます: この記事は次には適用されません: この記事は、特定の製品に関連付けられていません。 すべての製品パージョンがこの記事に記載されているわけではありません。

現象

ジョブが何度も待機状態になります

データベースの更新が完了するまでに長い時間がかかっています。

isi_job_d.logmessages.logでは、長い待機時間、データベースのロック、ジョブ コーディネーターがノードをジャンプする可能性に関するメッセージが頻繁に表示されます

症例1:
isi_job_d.log アップデートが成功した場合に長時間の待機を報告します。
isi_job_d[45179]: Reports database update (job state) succeeded but took 11272 ms
現象2:
isi_job_d.log レポート データベースがロックされている:
isi_job_d[97274]: Failed to update Jobs (state): database is locked
症状3:
ジョブ コーディネーターが、ノードを頻繁に切り替えます。
2018-05-02T02:00:48Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[31517]: Becoming job engine coordinator
2018-05-02T02:11:26Z <24.5> cluster01-33(id52) cluster01-33 isi_job_d[36865]: Becoming job engine coordinator
2018-05-02T02:25:39Z <24.5> cluster01-33(id52) cluster01-33 isi_job_d[37310]: Becoming job engine coordinator
2018-05-02T02:36:25Z <24.5> cluster01-37(id56) cluster01-37 isi_job_d[77098]: Becoming job engine coordinator
2018-05-02T02:38:24Z <24.5> cluster01-37(id56) cluster01-37 isi_job_d[77167]: Becoming job engine coordinator
2018-05-02T02:43:33Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[32917]: Becoming job engine coordinator
2018-05-02T02:59:58Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33518]: Becoming job engine coordinator
2018-05-02T03:02:44Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33782]: Becoming job engine coordinator
2018-05-02T03:08:02Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33969]: Becoming job engine coordinator

原因

  1. ジョブ エンジン レポート データベース(reports.db)は、実行時間の長いジョブが多数の更新を生成しているため、常に更新されます。
  2. ファイルに対するすべての更新は、クラスター全体で6回実行されます。保護レベルを下げると、アップデートが速くなるように見えます。
  3. 一時停止した時間に応じて isi_papi_dでは、コーディネーターがデータベースへの書き込み (ログ記録) でタイムアウトすることが予想されます。また、成功する場合もありますが、書き込みに必要以上に時間がかかったことをログに記録し、ログを isi_job_d.log どちらの場合も。
の現在の保護レベルを決定するには、次の手順を実行します。 reports.db
isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db
cluster01-16# isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db
POLICY   W   LEVEL PERFORMANCE COAL  ENCODING      FILE              IADDRS
8x        8     6x concurrency off   UTF-8         reports.db        <25,14,1575794508288:512>, <26,17,484528026624:512>, <26,31,924241684480:512>, <27,31,145164204544:512>, <28,30,2451893562880:512>, <29,29,6440579584:512> ct: 1506750730 rt: 0
*************************************************
* IFS inode: [ 25,14,1575794508288:512, 26,17,484528026624:512, 26,31,924241684480:512, 27,31,145164204544:512, 28,30,2451893562880:512, 29,29,6440579584:512 ]
*************************************************
...
*  Protection Policy:  8x
*  Target Protection:  6x                  <-- six times protection

解決方法

この問題は、Dellエンジニアリングにより調査中です。この記事は、詳細が明らかになり次第更新されます

この問題を回避するには、次のコマンドを実行して、ジョブ レポート データベースの保護レベルを次のように変更します。
  1. 実行中のジョブをすべて一時停止します。次のコマンドを実行して、実行中のジョブがないことを確認します。
isi job status
  1. ジョブ エンジンを無効にして確認する isi_job_d がすべてのノードで使用不可:
isi services -a isi_job_d disable
isi_for_array -sX 'ps auxww |grep -i isi_job_d |grep -v grep'
  1. の保護レベルの変更 reports.db 3xランダム アクセス レイアウト:
isi set -r -g reprotect -a random -p 3x -F /ifs/.ifsvar/modules/jobengine/reports.db
  1. 次のコマンドを再度実行すると、 reports.db 変更されました:
isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db

cluster01-16# isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db
POLICY   W   LEVEL PERFORMANCE COAL  ENCODING      FILE              IADDRS
3x       3      3x random off   UTF-8         reports.db        <25,14,1575794508288:512>, <26,31,924241684480:512>, <29,16,157594713088:512> ct: 1506750730 rt: 0
*************************************************
* IFS inode: [ 25,14,1575794508288:512, 26,31,924241684480:512, 29,16,157594713088:512 ]
*************************************************
*...
*  Protection Policy:  3x
*  Target Protection:  3x
  1. ジョブ エンジンを有効にします。
isi services -a isi_job_d enable
isi_for_array -sX 'ps auxww |grep -i isi_job_d |grep -v grep'
  1. ジョブを再開します。メッセージ isi_job_d.log 収まるはずです。
上記は再ストライピングする必要があります reports.db すぐに3倍になります。ただし、一部のユーザーは、「デフォルト」ではなく「すべて」のファイルを処理するようにSmartPoolsジョブを構成することができます。
  • フル ログ:
[xus25@elvis 2021-09-24-003]$ cat local/isi_storagepool_settings
     Automatically Manage Protection: all  <<<<
Automatically Manage Io Optimization: all 
  • ライブ クラスター上
steven-8220-1# isi storagepool settings view
     Automatically Manage Protection: all  <<<<
Automatically Manage Io Optimization: all 

「自動管理」を[all]に設定すると、次のSmartPoolsジョブが再ストライピングされることがある reports.db 6倍または8倍のミラーに戻ります
これを回避するには、[Automatically Manage Protection]を[files_at_default]に設定することをお勧めします

「files_at_default」に設定すると、SmartPoolsジョブは手動で管理されているファイルをバイパスします。つまり、ジョブは終了します reports.db を、指定した保護レベルに置き換えます。

その他の情報

以下に、このトピックに関連した役立つ可能性のある推奨リソースをいくつか紹介します。

対象製品

PowerScale, Isilon

製品

Isilon, Isilon NL410
文書のプロパティ
文書番号: 000066019
文書の種類: Solution
最終更新: 17 9月 2025
バージョン:  16
質問に対する他のDellユーザーからの回答を見つける
サポート サービス
お使いのデバイスがサポート サービスの対象かどうかを確認してください。