PowerScale:ジョブ エンジン データベースがロックされている、または連続するまでの待機時間が長いと報告されている
Summary: 大規模クラスター上のジョブ エンジン レポート データベース(reports.db)の保護レベルによっては、レポート データベースへのアクセスに問題が発生する可能性があります。
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
ジョブが何度も待機状態になります
データベースの更新が完了するまでに長い時間がかかっています。
の
症例1:
ジョブ コーディネーターが、ノードを頻繁に切り替えます。
データベースの更新が完了するまでに長い時間がかかっています。
の
isi_job_d.log と messages.logでは、長い待機時間、データベースのロック、ジョブ コーディネーターがノードをジャンプする可能性に関するメッセージが頻繁に表示されます
症例1:
isi_job_d.log アップデートが成功した場合に長時間の待機を報告します。
isi_job_d[45179]: Reports database update (job state) succeeded but took 11272 ms現象2:
isi_job_d.log レポート データベースがロックされている:
isi_job_d[97274]: Failed to update Jobs (state): database is locked症状3:
ジョブ コーディネーターが、ノードを頻繁に切り替えます。
2018-05-02T02:00:48Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[31517]: Becoming job engine coordinator 2018-05-02T02:11:26Z <24.5> cluster01-33(id52) cluster01-33 isi_job_d[36865]: Becoming job engine coordinator 2018-05-02T02:25:39Z <24.5> cluster01-33(id52) cluster01-33 isi_job_d[37310]: Becoming job engine coordinator 2018-05-02T02:36:25Z <24.5> cluster01-37(id56) cluster01-37 isi_job_d[77098]: Becoming job engine coordinator 2018-05-02T02:38:24Z <24.5> cluster01-37(id56) cluster01-37 isi_job_d[77167]: Becoming job engine coordinator 2018-05-02T02:43:33Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[32917]: Becoming job engine coordinator 2018-05-02T02:59:58Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33518]: Becoming job engine coordinator 2018-05-02T03:02:44Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33782]: Becoming job engine coordinator 2018-05-02T03:08:02Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33969]: Becoming job engine coordinator
Cause
- ジョブ エンジン レポート データベース(
reports.db)は、実行時間の長いジョブが多数の更新を生成しているため、常に更新されます。 - ファイルに対するすべての更新は、クラスター全体で6回実行されます。保護レベルを下げると、アップデートが速くなるように見えます。
- 一時停止した時間に応じて
isi_papi_dでは、コーディネーターがデータベースへの書き込み (ログ記録) でタイムアウトすることが予想されます。また、成功する場合もありますが、書き込みに必要以上に時間がかかったことをログに記録し、ログをisi_job_d.logどちらの場合も。
の現在の保護レベルを決定するには、次の手順を実行します。
reports.db
isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db
cluster01-16# isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db POLICY W LEVEL PERFORMANCE COAL ENCODING FILE IADDRS 8x 8 6x concurrency off UTF-8 reports.db <25,14,1575794508288:512>, <26,17,484528026624:512>, <26,31,924241684480:512>, <27,31,145164204544:512>, <28,30,2451893562880:512>, <29,29,6440579584:512> ct: 1506750730 rt: 0 ************************************************* * IFS inode: [ 25,14,1575794508288:512, 26,17,484528026624:512, 26,31,924241684480:512, 27,31,145164204544:512, 28,30,2451893562880:512, 29,29,6440579584:512 ] ************************************************* ... * Protection Policy: 8x * Target Protection: 6x <-- six times protection
Resolution
この問題は、Dellエンジニアリングにより調査中です。この記事は、詳細が明らかになり次第更新されます
この問題を回避するには、次のコマンドを実行して、ジョブ レポート データベースの保護レベルを次のように変更します。
「自動管理」を[all]に設定すると、次のSmartPoolsジョブが再ストライピングされることがある
これを回避するには、[Automatically Manage Protection]を[files_at_default]に設定することをお勧めします
「files_at_default」に設定すると、SmartPoolsジョブは手動で管理されているファイルをバイパスします。つまり、ジョブは終了します
この問題を回避するには、次のコマンドを実行して、ジョブ レポート データベースの保護レベルを次のように変更します。
- 実行中のジョブをすべて一時停止します。次のコマンドを実行して、実行中のジョブがないことを確認します。
isi job status
- ジョブ エンジンを無効にして確認する
isi_job_dがすべてのノードで使用不可:
isi services -a isi_job_d disable isi_for_array -sX 'ps auxww |grep -i isi_job_d |grep -v grep'
- の保護レベルの変更
reports.db3xランダム アクセス レイアウト:
isi set -r -g reprotect -a random -p 3x -F /ifs/.ifsvar/modules/jobengine/reports.db
- 次のコマンドを再度実行すると、
reports.db変更されました:
isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db cluster01-16# isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db POLICY W LEVEL PERFORMANCE COAL ENCODING FILE IADDRS 3x 3 3x random off UTF-8 reports.db <25,14,1575794508288:512>, <26,31,924241684480:512>, <29,16,157594713088:512> ct: 1506750730 rt: 0 ************************************************* * IFS inode: [ 25,14,1575794508288:512, 26,31,924241684480:512, 29,16,157594713088:512 ] ************************************************* *... * Protection Policy: 3x * Target Protection: 3x
- ジョブ エンジンを有効にします。
isi services -a isi_job_d enable isi_for_array -sX 'ps auxww |grep -i isi_job_d |grep -v grep'
- ジョブを再開します。メッセージ
isi_job_d.log収まるはずです。
reports.db すぐに3倍になります。ただし、一部のユーザーは、「デフォルト」ではなく「すべて」のファイルを処理するようにSmartPoolsジョブを構成することができます。
- フル ログ:
[xus25@elvis 2021-09-24-003]$ cat local/isi_storagepool_settings Automatically Manage Protection: all <<<< Automatically Manage Io Optimization: all
- ライブ クラスター上
steven-8220-1# isi storagepool settings view Automatically Manage Protection: all <<<< Automatically Manage Io Optimization: all
「自動管理」を[all]に設定すると、次のSmartPoolsジョブが再ストライピングされることがある
reports.db 6倍または8倍のミラーに戻ります
これを回避するには、[Automatically Manage Protection]を[files_at_default]に設定することをお勧めします
「files_at_default」に設定すると、SmartPoolsジョブは手動で管理されているファイルをバイパスします。つまり、ジョブは終了します
reports.db を、指定した保護レベルに置き換えます。Additional Information
以下に、このトピックに関連した役立つ可能性のある推奨リソースをいくつか紹介します。
Affected Products
PowerScale, IsilonProducts
Isilon, Isilon NL410Article Properties
Article Number: 000066019
Article Type: Solution
Last Modified: 17 Sep 2025
Version: 16
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.