PowerScale: O banco de dados do mecanismo de trabalho está relatando bloqueio ou um longo tempo de espera para sucessão

Summary: O nível de proteção do reports.db de relatórios do mecanismo de trabalho em clusters grandes pode causar problemas no acesso ao banco de dados de relatórios.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Os trabalhos estão entrando em um estado de espera várias vezes.

As atualizações do banco de dados estão demorando muito para serem concluídas.

No isi_job_d.log e messages.log, são vistas mensagens sobre longos tempos de espera, bloqueios de banco de dados e possível coordenador de trabalho saltando nós com frequência.

Sintoma 1:
isi_job_d.log relata uma longa espera por uma atualização bem-sucedida:
isi_job_d[45179]: Reports database update (job state) succeeded but took 11272 ms
Sintoma 2:
isi_job_d.log O banco de dados de relatórios está bloqueado:
isi_job_d[97274]: Failed to update Jobs (state): database is locked
Sintoma 3: 
O coordenador de trabalhos alterna os nós com frequência
2018-05-02T02:00:48Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[31517]: Becoming job engine coordinator
2018-05-02T02:11:26Z <24.5> cluster01-33(id52) cluster01-33 isi_job_d[36865]: Becoming job engine coordinator
2018-05-02T02:25:39Z <24.5> cluster01-33(id52) cluster01-33 isi_job_d[37310]: Becoming job engine coordinator
2018-05-02T02:36:25Z <24.5> cluster01-37(id56) cluster01-37 isi_job_d[77098]: Becoming job engine coordinator
2018-05-02T02:38:24Z <24.5> cluster01-37(id56) cluster01-37 isi_job_d[77167]: Becoming job engine coordinator
2018-05-02T02:43:33Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[32917]: Becoming job engine coordinator
2018-05-02T02:59:58Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33518]: Becoming job engine coordinator
2018-05-02T03:02:44Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33782]: Becoming job engine coordinator
2018-05-02T03:08:02Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33969]: Becoming job engine coordinator

Cause

  1. O banco de dados de relatórios do mecanismo de trabalho (reports.db) é atualizado constantemente devido a um trabalho de longa execução que está gerando muitas atualizações.
  2. Cada atualização do arquivo é feita seis vezes em todo o cluster. Reduzir o nível de proteção, aparentemente, torna as atualizações mais rápidas.
  3. Dependendo do tempo pausado em isi_papi_d, você espera ver o tempo limite do coordenador em sua gravação no banco de dados (log). Ele também pode ser bem-sucedido, mas registra que a gravação demorou mais do que o desejado, registrando em isi_job_d.log em ambos os casos.
Para determinar o nível de proteção atual do reports.db
isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db
cluster01-16# isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db
POLICY   W   LEVEL PERFORMANCE COAL  ENCODING      FILE              IADDRS
8x        8     6x concurrency off   UTF-8         reports.db        <25,14,1575794508288:512>, <26,17,484528026624:512>, <26,31,924241684480:512>, <27,31,145164204544:512>, <28,30,2451893562880:512>, <29,29,6440579584:512> ct: 1506750730 rt: 0
*************************************************
* IFS inode: [ 25,14,1575794508288:512, 26,17,484528026624:512, 26,31,924241684480:512, 27,31,145164204544:512, 28,30,2451893562880:512, 29,29,6440579584:512 ]
*************************************************
...
*  Protection Policy:  8x
*  Target Protection:  6x                  <-- six times protection

Resolution

A equipe de engenharia da Dell está investigando o problema. Este artigo será atualizado à medida que mais informações forem disponibilizadas.

Para contornar esse problema, execute o seguinte comando para alterar o nível de proteção do banco de dados de relatórios de trabalho da seguinte maneira:
  1. Pause todos os trabalhos em execução. Verifique se não há trabalhos em execução com o comando:
isi job status
  1. Desative o mecanismo de trabalho e verifique isi_job_d Está inativo em todos os nós:
isi services -a isi_job_d disable
isi_for_array -sX 'ps auxww |grep -i isi_job_d |grep -v grep'
  1. Altere o nível de proteção do reports.db Até 3x o layout de acesso aleatório:
isi set -r -g reprotect -a random -p 3x -F /ifs/.ifsvar/modules/jobengine/reports.db
  1. Outra execução do comando abaixo deve confirmar o reports.db mudou:
isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db

cluster01-16# isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db
POLICY   W   LEVEL PERFORMANCE COAL  ENCODING      FILE              IADDRS
3x       3      3x random off   UTF-8         reports.db        <25,14,1575794508288:512>, <26,31,924241684480:512>, <29,16,157594713088:512> ct: 1506750730 rt: 0
*************************************************
* IFS inode: [ 25,14,1575794508288:512, 26,31,924241684480:512, 29,16,157594713088:512 ]
*************************************************
*...
*  Protection Policy:  3x
*  Target Protection:  3x
  1. Ative o mecanismo de trabalho:
isi services -a isi_job_d enable
isi_for_array -sX 'ps auxww |grep -i isi_job_d |grep -v grep'
  1. Retomar trabalhos. As mensagens em isi_job_d.log deve diminuir.
Os itens acima devem ser refracionados reports.db para 3x imediatamente. No entanto, alguns usuários podem configurar o trabalho do SmartPools para funcionar em "todos" arquivos em vez de "padrão".
  • No log completo:
[xus25@elvis 2021-09-24-003]$ cat local/isi_storagepool_settings
     Automatically Manage Protection: all  <<<<
Automatically Manage Io Optimization: all 
  • Em um cluster ativo
steven-8220-1# isi storagepool settings view
     Automatically Manage Protection: all  <<<<
Automatically Manage Io Optimization: all 

Com "gerenciar automaticamente" definido como todos, o próximo trabalho do SmartPools pode ser redistribuído reports.db Voltar para espelhamento 6x ou 8x.
Para evitar isso, sugira configurar 'Automatically Manage Protection' como 'files_at_default'.

Com ele definido como "files_at_default", os trabalhos do SmartPools ignoram os arquivos gerenciados manualmente, o que significa que ele deixa reports.db com qualquer nível de proteção especificado.

Additional Information

Aqui estão alguns recursos recomendados relacionados a este tópico que podem ser de interesse:

Affected Products

PowerScale, Isilon

Products

Isilon, Isilon NL410
Article Properties
Article Number: 000066019
Article Type: Solution
Last Modified: 17 Sep 2025
Version:  16
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.