PowerScale: Il database dell'engine dei processi segnala un blocco o un lungo tempo di attesa per la successione

Summary: Il livello di protezione del database dei report (reports.db) del motore dei processi nei cluster di grandi dimensioni può causare problemi di accesso al database dei report.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

I processi entrano più volte in uno stato di attesa.

Il completamento degli aggiornamenti del database richiede molto tempo.

Nel isi_job_d.log e messages.log, vengono visualizzati frequentemente messaggi relativi a lunghi tempi di attesa, blocchi del database e possibili nodi saltatori del coordinatore dei processi.

Sintomo 1:
isi_job_d.log Segnala un'attesa prolungata per un aggiornamento riuscito:
isi_job_d[45179]: Reports database update (job state) succeeded but took 11272 ms
Sintomo 2:
isi_job_d.log Il database dei report è bloccato:
isi_job_d[97274]: Failed to update Jobs (state): database is locked
Sintomo 3: 
Il coordinatore dei processi cambia spesso nodo:
2018-05-02T02:00:48Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[31517]: Becoming job engine coordinator
2018-05-02T02:11:26Z <24.5> cluster01-33(id52) cluster01-33 isi_job_d[36865]: Becoming job engine coordinator
2018-05-02T02:25:39Z <24.5> cluster01-33(id52) cluster01-33 isi_job_d[37310]: Becoming job engine coordinator
2018-05-02T02:36:25Z <24.5> cluster01-37(id56) cluster01-37 isi_job_d[77098]: Becoming job engine coordinator
2018-05-02T02:38:24Z <24.5> cluster01-37(id56) cluster01-37 isi_job_d[77167]: Becoming job engine coordinator
2018-05-02T02:43:33Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[32917]: Becoming job engine coordinator
2018-05-02T02:59:58Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33518]: Becoming job engine coordinator
2018-05-02T03:02:44Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33782]: Becoming job engine coordinator
2018-05-02T03:08:02Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33969]: Becoming job engine coordinator

Cause

  1. Il database dei report di Job Engine (reports.db) viene costantemente aggiornato a causa di un processo a esecuzione prolungata che genera molti aggiornamenti.
  2. Ogni aggiornamento del file viene eseguito sei volte in tutto il cluster. Sembra che abbassando il livello di protezione gli aggiornamenti siano più veloci.
  3. A seconda della quantità di tempo di pausa in: isi_papi_d, si prevede di visualizzare il timeout del coordinatore nella scrittura nel database (registrazione). Potrebbe anche avere esito positivo, ma registrare che la scrittura ha richiesto più tempo del previsto, registrando in isi_job_d.log in entrambi i casi.
Per determinare il livello di protezione corrente di reports.db
isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db
cluster01-16# isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db
POLICY   W   LEVEL PERFORMANCE COAL  ENCODING      FILE              IADDRS
8x        8     6x concurrency off   UTF-8         reports.db        <25,14,1575794508288:512>, <26,17,484528026624:512>, <26,31,924241684480:512>, <27,31,145164204544:512>, <28,30,2451893562880:512>, <29,29,6440579584:512> ct: 1506750730 rt: 0
*************************************************
* IFS inode: [ 25,14,1575794508288:512, 26,17,484528026624:512, 26,31,924241684480:512, 27,31,145164204544:512, 28,30,2451893562880:512, 29,29,6440579584:512 ]
*************************************************
...
*  Protection Policy:  8x
*  Target Protection:  6x                  <-- six times protection

Resolution

Dell Engineering sta esaminando il problema. Questo articolo viene aggiornato man mano che si rendono disponibili ulteriori informazioni.

Per risolvere questo problema, eseguire il seguente comando per modificare il livello di protezione del database dei report dei processi come indicato di seguito:
  1. Sospendere tutti i processi in esecuzione. Verificare che non vi siano lavori in esecuzione con il comando:
isi job status
  1. Disabilitare l'engine dei processi e verificare isi_job_d è inattivo su tutti i nodi:
isi services -a isi_job_d disable
isi_for_array -sX 'ps auxww |grep -i isi_job_d |grep -v grep'
  1. Modificare il livello di protezione di reports.db a 3 layout ad accesso casuale:
isi set -r -g reprotect -a random -p 3x -F /ifs/.ifsvar/modules/jobengine/reports.db
  1. Un'altra esecuzione del comando seguente dovrebbe confermare che reports.db ha cambiato:
isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db

cluster01-16# isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db
POLICY   W   LEVEL PERFORMANCE COAL  ENCODING      FILE              IADDRS
3x       3      3x random off   UTF-8         reports.db        <25,14,1575794508288:512>, <26,31,924241684480:512>, <29,16,157594713088:512> ct: 1506750730 rt: 0
*************************************************
* IFS inode: [ 25,14,1575794508288:512, 26,31,924241684480:512, 29,16,157594713088:512 ]
*************************************************
*...
*  Protection Policy:  3x
*  Target Protection:  3x
  1. Abilitare l'engine dei processi:
isi services -a isi_job_d enable
isi_for_array -sX 'ps auxww |grep -i isi_job_d |grep -v grep'
  1. Riprendere i processi. I messaggi in isi_job_d.log dovrebbe diminuire.
Quanto sopra dovrebbe essere sottoposto a restriping reports.db a 3 volte immediatamente. Tuttavia, alcuni utenti possono configurare il proprio lavoro SmartPools in modo che funzioni su "all" file anziché su "default".
  • Nel registro completo:
[xus25@elvis 2021-09-24-003]$ cat local/isi_storagepool_settings
     Automatically Manage Protection: all  <<<<
Automatically Manage Io Optimization: all 
  • Su un cluster attivo
steven-8220-1# isi storagepool settings view
     Automatically Manage Protection: all  <<<<
Automatically Manage Io Optimization: all 

Con "automatically manage" impostato su all, il successivo lavoro SmartPools potrebbe eseguire il restriping reports.db Torna allo specchio 6x o 8x.
Per evitare questo problema, suggerisci di impostare "Gestisci protezione automaticamente" su "files_at_default".

Quando è impostato su 'files_at_default, i lavori SmartPools ignorano i file gestiti manualmente, il che significa che lascia reports.db con qualsiasi livello di protezione specificato.

Additional Information

Di seguito sono riportate alcune risorse consigliate correlate a questo argomento che potrebbero essere di interesse per l'utente:

Affected Products

PowerScale, Isilon

Products

Isilon, Isilon NL410
Article Properties
Article Number: 000066019
Article Type: Solution
Last Modified: 17 Sep 2025
Version:  16
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.