PowerScale:Job Engine 資料庫回報已鎖定,或連續等待時間過長

Summary: 大型群集上作業引擎報表資料庫 (reports.db) 的保護級別可能會導致報表資料庫訪問出現問題。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

工作多次進入等待狀態。

資料庫更新需要很長時間才能完成。

isi_job_d.logmessages.log,可以看到有關等待時間長、資料庫鎖和可能頻繁的作業協調器跳轉節點的消息。

症狀 1:
isi_job_d.log 報告等待成功更新的時間已過長:
isi_job_d[45179]: Reports database update (job state) succeeded but took 11272 ms
症狀 2:
isi_job_d.log 報告資料庫已鎖定:
isi_job_d[97274]: Failed to update Jobs (state): database is locked
症狀 3:
工作協調器頻繁切換節點:
2018-05-02T02:00:48Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[31517]: Becoming job engine coordinator
2018-05-02T02:11:26Z <24.5> cluster01-33(id52) cluster01-33 isi_job_d[36865]: Becoming job engine coordinator
2018-05-02T02:25:39Z <24.5> cluster01-33(id52) cluster01-33 isi_job_d[37310]: Becoming job engine coordinator
2018-05-02T02:36:25Z <24.5> cluster01-37(id56) cluster01-37 isi_job_d[77098]: Becoming job engine coordinator
2018-05-02T02:38:24Z <24.5> cluster01-37(id56) cluster01-37 isi_job_d[77167]: Becoming job engine coordinator
2018-05-02T02:43:33Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[32917]: Becoming job engine coordinator
2018-05-02T02:59:58Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33518]: Becoming job engine coordinator
2018-05-02T03:02:44Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33782]: Becoming job engine coordinator
2018-05-02T03:08:02Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33969]: Becoming job engine coordinator

Cause

  1. Job Engine 報告資料庫 (reports.db) 會不斷更新,因為長時間運行的作業會生成大量更新。
  2. 對檔的每次更新都會在整個群集中執行六次。降低其保護等級顯然會使更新加快。
  3. 視暫停的時間而定 isi_papi_d,您希望在寫入資料庫(日誌記錄)中看到協調器超時。它也可能會成功,但記錄寫入花費的時間比所需更長的時間,登入至 isi_job_d.log 在這兩種情況下。
若要判斷目前 reports.db
isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db
cluster01-16# isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db
POLICY   W   LEVEL PERFORMANCE COAL  ENCODING      FILE              IADDRS
8x        8     6x concurrency off   UTF-8         reports.db        <25,14,1575794508288:512>, <26,17,484528026624:512>, <26,31,924241684480:512>, <27,31,145164204544:512>, <28,30,2451893562880:512>, <29,29,6440579584:512> ct: 1506750730 rt: 0
*************************************************
* IFS inode: [ 25,14,1575794508288:512, 26,17,484528026624:512, 26,31,924241684480:512, 27,31,145164204544:512, 28,30,2451893562880:512, 29,29,6440579584:512 ]
*************************************************
...
*  Protection Policy:  8x
*  Target Protection:  6x                  <-- six times protection

Resolution

Dell 工程部門正在調查此問題。隨著更多可用資訊,本文也會更新。

若要變通解決此問題,請運行以下命令以更改作業報告資料庫的保護級別,如下所示:
  1. 暫停任何執行中的工作。使用此命令確認沒有工作執行:
isi job status
  1. 停用工作引擎並驗證 isi_job_d 在所有節點上均已失效:
isi services -a isi_job_d disable
isi_for_array -sX 'ps auxww |grep -i isi_job_d |grep -v grep'
  1. 變更保護等級 reports.db 至 3x 隨機存取配置:
isi set -r -g reprotect -a random -p 3x -F /ifs/.ifsvar/modules/jobengine/reports.db
  1. 再次執行下列命令應可確認 reports.db 已變更:
isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db

cluster01-16# isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db
POLICY   W   LEVEL PERFORMANCE COAL  ENCODING      FILE              IADDRS
3x       3      3x random off   UTF-8         reports.db        <25,14,1575794508288:512>, <26,31,924241684480:512>, <29,16,157594713088:512> ct: 1506750730 rt: 0
*************************************************
* IFS inode: [ 25,14,1575794508288:512, 26,31,924241684480:512, 29,16,157594713088:512 ]
*************************************************
*...
*  Protection Policy:  3x
*  Target Protection:  3x
  1. 啟用工作引擎:
isi services -a isi_job_d enable
isi_for_array -sX 'ps auxww |grep -i isi_job_d |grep -v grep'
  1. 恢復工作。中的消息 isi_job_d.log 應該減少。
以上應重新等量分配 reports.db 立即到 3 倍。但是,某些使用者可能會將其 SmartPools 作業配置為處理“所有”檔,而不是“預設”檔。
  • 在完整紀錄中:
[xus25@elvis 2021-09-24-003]$ cat local/isi_storagepool_settings
     Automatically Manage Protection: all  <<<<
Automatically Manage Io Optimization: all 
  • 在即時叢集上
steven-8220-1# isi storagepool settings view
     Automatically Manage Protection: all  <<<<
Automatically Manage Io Optimization: all 

將「自動管理」設為全部後,下一個 SmartPools 工作可能會重新進行等量分割 reports.db 返回 6 倍或 8 倍鏡射。
為避免這種情況,建議將“自動管理保護”設置為“files_at_default”。

設定為「files_at_default」後,SmartPools 工作會略過手動管理的檔案,這表示它會離開 reports.db 使用我們指定的任何保護級別。

Additional Information

Affected Products

PowerScale, Isilon

Products

Isilon, Isilon NL410
Article Properties
Article Number: 000066019
Article Type: Solution
Last Modified: 17 Sep 2025
Version:  16
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.