PowerScale:作业引擎数据库报告被锁定或等待接替时间长

Summary: 大型群集上的作业引擎报告数据库 (reports.db) 的保护级别可能会导致报告数据库访问出现问题。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

作业多次进入等待状态。

数据库更新需要很长时间才能完成。

isi_job_d.logmessages.log,则会频繁地看到有关等待时间长、数据库锁定和可能的作业协调器跳转节点的消息。

症状 1:
isi_job_d.log 报告对成功更新的长时间等待:
isi_job_d[45179]: Reports database update (job state) succeeded but took 11272 ms
症状 2:
isi_job_d.log 报告数据库已锁定:
isi_job_d[97274]: Failed to update Jobs (state): database is locked
症状 3:
作业协调器频繁切换节点:
2018-05-02T02:00:48Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[31517]: Becoming job engine coordinator
2018-05-02T02:11:26Z <24.5> cluster01-33(id52) cluster01-33 isi_job_d[36865]: Becoming job engine coordinator
2018-05-02T02:25:39Z <24.5> cluster01-33(id52) cluster01-33 isi_job_d[37310]: Becoming job engine coordinator
2018-05-02T02:36:25Z <24.5> cluster01-37(id56) cluster01-37 isi_job_d[77098]: Becoming job engine coordinator
2018-05-02T02:38:24Z <24.5> cluster01-37(id56) cluster01-37 isi_job_d[77167]: Becoming job engine coordinator
2018-05-02T02:43:33Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[32917]: Becoming job engine coordinator
2018-05-02T02:59:58Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33518]: Becoming job engine coordinator
2018-05-02T03:02:44Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33782]: Becoming job engine coordinator
2018-05-02T03:08:02Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33969]: Becoming job engine coordinator

Cause

  1. 作业引擎报告数据库 (reports.db) 会不断更新,因为长时间运行的作业会生成大量更新。
  2. 每次更新文件都会在整个群集中执行六次。降低其保护级别显然会使更新速度更快。
  3. 根据暂停时间 isi_papi_d,您希望看到协调器在写入数据库(日志记录)时超时。它也可能成功,但记录写入花费的时间比预期更长,并记录到 isi_job_d.log 在这两种情况下。
要确定 的 reports.db
isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db
cluster01-16# isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db
POLICY   W   LEVEL PERFORMANCE COAL  ENCODING      FILE              IADDRS
8x        8     6x concurrency off   UTF-8         reports.db        <25,14,1575794508288:512>, <26,17,484528026624:512>, <26,31,924241684480:512>, <27,31,145164204544:512>, <28,30,2451893562880:512>, <29,29,6440579584:512> ct: 1506750730 rt: 0
*************************************************
* IFS inode: [ 25,14,1575794508288:512, 26,17,484528026624:512, 26,31,924241684480:512, 27,31,145164204544:512, 28,30,2451893562880:512, 29,29,6440579584:512 ]
*************************************************
...
*  Protection Policy:  8x
*  Target Protection:  6x                  <-- six times protection

Resolution

戴尔工程部门正在调查该问题。随着更多信息的推出,本文将更新。

要解决此问题,请运行以下命令以更改作业报告数据库的保护级别,如下所示:
  1. 暂停任何正在运行的作业。使用以下命令验证没有正在运行的作业:
isi job status
  1. 禁用作业引擎并验证 isi_job_d 在所有节点上都无效:
isi services -a isi_job_d disable
isi_for_array -sX 'ps auxww |grep -i isi_job_d |grep -v grep'
  1. 更改 的保护级别 reports.db 到 3 倍随机存取布局:
isi set -r -g reprotect -a random -p 3x -F /ifs/.ifsvar/modules/jobengine/reports.db
  1. 再次运行以下命令应确认 reports.db 已更改:
isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db

cluster01-16# isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db
POLICY   W   LEVEL PERFORMANCE COAL  ENCODING      FILE              IADDRS
3x       3      3x random off   UTF-8         reports.db        <25,14,1575794508288:512>, <26,31,924241684480:512>, <29,16,157594713088:512> ct: 1506750730 rt: 0
*************************************************
* IFS inode: [ 25,14,1575794508288:512, 26,31,924241684480:512, 29,16,157594713088:512 ]
*************************************************
*...
*  Protection Policy:  3x
*  Target Protection:  3x
  1. 启用作业引擎:
isi services -a isi_job_d enable
isi_for_array -sX 'ps auxww |grep -i isi_job_d |grep -v grep'
  1. 恢复作业。消息在 isi_job_d.log 应该会减弱。
以上内容应重新条带化 reports.db 立即增加到 3 倍。但是,某些用户可能会将其 SmartPools 作业配置为处理“所有”文件,而不是处理“默认”文件。
  • 在完整日志中:
[xus25@elvis 2021-09-24-003]$ cat local/isi_storagepool_settings
     Automatically Manage Protection: all  <<<<
Automatically Manage Io Optimization: all 
  • 在活动群集上
steven-8220-1# isi storagepool settings view
     Automatically Manage Protection: all  <<<<
Automatically Manage Io Optimization: all 

将“automatically manage”设置为 all 后,下一个 SmartPools 作业可能会重新条带化 reports.db 返回到 6 倍或 8 倍镜像。
为避免这种情况,建议将“自动管理保护”设置为“files_at_default”。

设置为“files_at_default”时,SmartPools 作业会绕过手动管理的文件,这意味着它会离开 reports.db 具有我们指定的任何保护级别。

Additional Information

以下是您可能会感兴趣的与此主题相关的一些推荐资源:

Affected Products

PowerScale, Isilon

Products

Isilon, Isilon NL410
Article Properties
Article Number: 000066019
Article Type: Solution
Last Modified: 17 Sep 2025
Version:  16
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.