PowerScale: La base de datos del motor de trabajos informa un tiempo de espera largo o bloqueado para la sucesión

Summary: El nivel de protección de la base de datos de informes del motor de trabajos (reports.db) en clústeres grandes puede causar problemas en el acceso a la base de datos de informes.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Los trabajos entran en un estado de espera varias veces.

Las actualizaciones de la base de datos tardan mucho en completarse.

En isi_job_d.log y messages.log, se ven mensajes sobre tiempos de espera prolongados, bloqueos de bases de datos y posibles nodos de salto del coordinador de trabajos de forma frecuente.

Síntoma 1:
isi_job_d.log Informa una larga espera en una actualización exitosa:
isi_job_d[45179]: Reports database update (job state) succeeded but took 11272 ms
Síntoma 2:
isi_job_d.log La base de datos de informes está bloqueada:
isi_job_d[97274]: Failed to update Jobs (state): database is locked
Síntoma 3: 
El coordinador de trabajos cambia los nodos con frecuencia:
2018-05-02T02:00:48Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[31517]: Becoming job engine coordinator
2018-05-02T02:11:26Z <24.5> cluster01-33(id52) cluster01-33 isi_job_d[36865]: Becoming job engine coordinator
2018-05-02T02:25:39Z <24.5> cluster01-33(id52) cluster01-33 isi_job_d[37310]: Becoming job engine coordinator
2018-05-02T02:36:25Z <24.5> cluster01-37(id56) cluster01-37 isi_job_d[77098]: Becoming job engine coordinator
2018-05-02T02:38:24Z <24.5> cluster01-37(id56) cluster01-37 isi_job_d[77167]: Becoming job engine coordinator
2018-05-02T02:43:33Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[32917]: Becoming job engine coordinator
2018-05-02T02:59:58Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33518]: Becoming job engine coordinator
2018-05-02T03:02:44Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33782]: Becoming job engine coordinator
2018-05-02T03:08:02Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33969]: Becoming job engine coordinator

Cause

  1. La base de datos de informes del motor de trabajos (reports.db) se actualiza constantemente debido a un trabajo de larga duración que genera muchas actualizaciones.
  2. Cada actualización del archivo se realiza seis veces en todo el clúster. Reducir su nivel de protección aparentemente hace que las actualizaciones sean más rápidas.
  3. Según la cantidad de tiempo pausado en isi_papi_d, se espera ver el tiempo de espera agotado del coordinador en su escritura en la base de datos (registro). También puede realizarse correctamente, pero registre que la escritura tardó más de lo deseado, mediante el registro en isi_job_d.log en ambos casos.
Para determinar el nivel de protección actual del reports.db
isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db
cluster01-16# isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db
POLICY   W   LEVEL PERFORMANCE COAL  ENCODING      FILE              IADDRS
8x        8     6x concurrency off   UTF-8         reports.db        <25,14,1575794508288:512>, <26,17,484528026624:512>, <26,31,924241684480:512>, <27,31,145164204544:512>, <28,30,2451893562880:512>, <29,29,6440579584:512> ct: 1506750730 rt: 0
*************************************************
* IFS inode: [ 25,14,1575794508288:512, 26,17,484528026624:512, 26,31,924241684480:512, 27,31,145164204544:512, 28,30,2451893562880:512, 29,29,6440579584:512 ]
*************************************************
...
*  Protection Policy:  8x
*  Target Protection:  6x                  <-- six times protection

Resolution

El departamento de Ingeniería de Dell se encuentra investigando el problema. Este artículo se actualizará a medida que haya más información disponible.

Para solucionar este problema, ejecute el siguiente comando a fin de cambiar el nivel de protección de la base de datos de informes de trabajo de la siguiente manera:
  1. Ponga en pausa todos los trabajos en ejecución. Verifique que no haya trabajos en ejecución con el comando:
isi job status
  1. Deshabilite el motor de trabajos y verifique isi_job_d está inactivo en todos los nodos:
isi services -a isi_job_d disable
isi_for_array -sX 'ps auxww |grep -i isi_job_d |grep -v grep'
  1. Cambie el nivel de protección del reports.db hasta 3x diseño de acceso aleatorio:
isi set -r -g reprotect -a random -p 3x -F /ifs/.ifsvar/modules/jobengine/reports.db
  1. Otra ejecución del siguiente comando debería confirmar el reports.db ha cambiado:
isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db

cluster01-16# isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db
POLICY   W   LEVEL PERFORMANCE COAL  ENCODING      FILE              IADDRS
3x       3      3x random off   UTF-8         reports.db        <25,14,1575794508288:512>, <26,31,924241684480:512>, <29,16,157594713088:512> ct: 1506750730 rt: 0
*************************************************
* IFS inode: [ 25,14,1575794508288:512, 26,31,924241684480:512, 29,16,157594713088:512 ]
*************************************************
*...
*  Protection Policy:  3x
*  Target Protection:  3x
  1. Active el motor de trabajos:
isi services -a isi_job_d enable
isi_for_array -sX 'ps auxww |grep -i isi_job_d |grep -v grep'
  1. Reanude los trabajos. Los mensajes en isi_job_d.log debería disminuir.
Lo anterior debe volver a fraccionarse reports.db a 3x inmediatamente. Sin embargo, algunos usuarios pueden configurar su trabajo de SmartPools para que funcione en "todos" los archivos en lugar de en "predeterminado".
  • En el registro completo:
[xus25@elvis 2021-09-24-003]$ cat local/isi_storagepool_settings
     Automatically Manage Protection: all  <<<<
Automatically Manage Io Optimization: all 
  • En un clúster activo
steven-8220-1# isi storagepool settings view
     Automatically Manage Protection: all  <<<<
Automatically Manage Io Optimization: all 

Con la opción "automatically manage" configurada en todos, es posible que el siguiente trabajo de SmartPools se vuelva a fraccionar reports.db Vuelva al espejo de 6x u 8x.
Para evitar esto, sugiera configurar "Administrar protección automáticamente" en "files_at_default".

Si se configura en "files_at_default", los trabajos de SmartPools omiten los archivos administrados manualmente, lo que significa que dejan reports.db con cualquier nivel de protección que especifiquemos.

Additional Information

Estos son algunos recursos recomendados relacionados con este tema que podrían ser de interés:

Affected Products

PowerScale, Isilon

Products

Isilon, Isilon NL410
Article Properties
Article Number: 000066019
Article Type: Solution
Last Modified: 17 Sep 2025
Version:  16
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.