PowerScale: Databáze modulu úloh se hlásí uzamčená nebo dlouhá čekací doba do nástupnictví

Summary: Úroveň ochrany databáze sestav modulu úloh (reports.db) ve velkých clusterech může způsobit problémy s přístupem k databázi sestav.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Úlohy přecházejí do stavu čekání několikrát.

Aktualizace databáze trvají dlouho.

V dialogovém okně isi_job_d.log a messages.log, často se zobrazují zprávy o dlouhých čekacích dobách, zámcích databáze a možném přeskakování uzlů koordinátora úloh.

Příznak 1:
isi_job_d.log Hlásí dlouhé čekání na úspěšnou aktualizaci:
isi_job_d[45179]: Reports database update (job state) succeeded but took 11272 ms
Příznak 2:
isi_job_d.log Databáze reportů je uzamčena:
isi_job_d[97274]: Failed to update Jobs (state): database is locked
Příznak 3: 
Koordinátor úloh často přepíná uzly:
2018-05-02T02:00:48Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[31517]: Becoming job engine coordinator
2018-05-02T02:11:26Z <24.5> cluster01-33(id52) cluster01-33 isi_job_d[36865]: Becoming job engine coordinator
2018-05-02T02:25:39Z <24.5> cluster01-33(id52) cluster01-33 isi_job_d[37310]: Becoming job engine coordinator
2018-05-02T02:36:25Z <24.5> cluster01-37(id56) cluster01-37 isi_job_d[77098]: Becoming job engine coordinator
2018-05-02T02:38:24Z <24.5> cluster01-37(id56) cluster01-37 isi_job_d[77167]: Becoming job engine coordinator
2018-05-02T02:43:33Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[32917]: Becoming job engine coordinator
2018-05-02T02:59:58Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33518]: Becoming job engine coordinator
2018-05-02T03:02:44Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33782]: Becoming job engine coordinator
2018-05-02T03:08:02Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33969]: Becoming job engine coordinator

Cause

  1. Databáze sestav modulu úloh (reports.db) se neustále aktualizuje z důvodu dlouhotrvající úlohy, která generuje velké množství aktualizací.
  2. Každá aktualizace souboru se v clusteru provádí šestkrát. Snížení úrovně ochrany zřejmě urychluje aktualizace.
  3. V závislosti na době pozastavení isi_papi_d, očekáváte, že při zápisu do databáze (protokolování) dojde k vypršení časového limitu koordinátora. Může být také úspěšný, ale zaznamená, že zápis trval déle, než je požadováno, a protokoluje se do isi_job_d.log v obou případech.
Chcete-li určit aktuální úroveň ochrany reports.db
isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db
cluster01-16# isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db
POLICY   W   LEVEL PERFORMANCE COAL  ENCODING      FILE              IADDRS
8x        8     6x concurrency off   UTF-8         reports.db        <25,14,1575794508288:512>, <26,17,484528026624:512>, <26,31,924241684480:512>, <27,31,145164204544:512>, <28,30,2451893562880:512>, <29,29,6440579584:512> ct: 1506750730 rt: 0
*************************************************
* IFS inode: [ 25,14,1575794508288:512, 26,17,484528026624:512, 26,31,924241684480:512, 27,31,145164204544:512, 28,30,2451893562880:512, 29,29,6440579584:512 ]
*************************************************
...
*  Protection Policy:  8x
*  Target Protection:  6x                  <-- six times protection

Resolution

Technický tým společnosti Dell tento problém zkoumá. Tento článek je aktualizován, jakmile budou k dispozici další informace.

Chcete-li tento problém vyřešit, spusťte následující příkaz, který změní úroveň ochrany databáze pracovních sestav následujícím způsobem:
  1. Pozastavte všechny spuštěné úlohy. Pomocí následujícího příkazu ověřte, zda nejsou spuštěny žádné úlohy:
isi job status
  1. Zakažte modul úloh a ověřte isi_job_d je mrtvá na všech uzlech:
isi services -a isi_job_d disable
isi_for_array -sX 'ps auxww |grep -i isi_job_d |grep -v grep'
  1. Změňte úroveň ochrany reports.db na 3x rozložení s náhodným přístupem:
isi set -r -g reprotect -a random -p 3x -F /ifs/.ifsvar/modules/jobengine/reports.db
  1. Další spuštění níže uvedeného příkazu by mělo potvrdit reports.db Došlo ke změně:
isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db

cluster01-16# isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db
POLICY   W   LEVEL PERFORMANCE COAL  ENCODING      FILE              IADDRS
3x       3      3x random off   UTF-8         reports.db        <25,14,1575794508288:512>, <26,31,924241684480:512>, <29,16,157594713088:512> ct: 1506750730 rt: 0
*************************************************
* IFS inode: [ 25,14,1575794508288:512, 26,31,924241684480:512, 29,16,157594713088:512 ]
*************************************************
*...
*  Protection Policy:  3x
*  Target Protection:  3x
  1. Povolte modul pro zpracování úloh:
isi services -a isi_job_d enable
isi_for_array -sX 'ps auxww |grep -i isi_job_d |grep -v grep'
  1. Obnovte úlohy. Zprávy v části isi_job_d.log by se měla zmírnit.
Výše uvedené by se mělo znovu prokládat reports.db na 3x ihned. Někteří uživatelé však mohou nakonfigurovat svou úlohu SmartPools tak, aby fungovala se soubory "all" namísto "default".
  • V úplném protokolu:
[xus25@elvis 2021-09-24-003]$ cat local/isi_storagepool_settings
     Automatically Manage Protection: all  <<<<
Automatically Manage Io Optimization: all 
  • V živém clusteru
steven-8220-1# isi storagepool settings view
     Automatically Manage Protection: all  <<<<
Automatically Manage Io Optimization: all 

S možností "Automatická správa" nastavenou na vše se může při další úloze SmartPools znovu prokládat reports.db zpět na zrcadlo 6x nebo 8x.
Chcete-li tomu zabránit, doporučujeme nastavit možnost "Automaticky spravovat ochranu" na hodnotu "files_at_default".

Když je nastavena na "files_at_default", úlohy SmartPools obcházejí ručně spravované soubory, což znamená, že je opustí reports.db s jakoukoli úrovní ochrany, kterou jsme specifikovali.

Additional Information

Zde je několik doporučených zdrojů týkajících se tohoto tématu, které by vás mohly zajímat:

Affected Products

PowerScale, Isilon

Products

Isilon, Isilon NL410
Article Properties
Article Number: 000066019
Article Type: Solution
Last Modified: 17 Sep 2025
Version:  16
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.