PowerScale. База данных инициатора заданий сообщает о блокировке или длительном времени ожидания перехода к преемственности

Summary: Уровень защиты базы данных отчетов инициатора заданий (reports.db) в больших кластерах может вызвать проблемы с доступом к базе данных отчетов.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Задания несколько раз переходят в состояние ожидания.

Обновление базы данных занимает много времени.

В isi_job_d.log и messages.log, часто появляются сообщения о длительном времени ожидания, блокировках базы данных и возможной переключении узлов координатора заданий.

Симптом 1:
isi_job_d.log Сообщает о длительном ожидании успешного обновления:
isi_job_d[45179]: Reports database update (job state) succeeded but took 11272 ms
Признак 2.
isi_job_d.log База данных отчетов заблокирована:
isi_job_d[97274]: Failed to update Jobs (state): database is locked
Признак 3. 
координатор задания часто переключает узлы:
2018-05-02T02:00:48Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[31517]: Becoming job engine coordinator
2018-05-02T02:11:26Z <24.5> cluster01-33(id52) cluster01-33 isi_job_d[36865]: Becoming job engine coordinator
2018-05-02T02:25:39Z <24.5> cluster01-33(id52) cluster01-33 isi_job_d[37310]: Becoming job engine coordinator
2018-05-02T02:36:25Z <24.5> cluster01-37(id56) cluster01-37 isi_job_d[77098]: Becoming job engine coordinator
2018-05-02T02:38:24Z <24.5> cluster01-37(id56) cluster01-37 isi_job_d[77167]: Becoming job engine coordinator
2018-05-02T02:43:33Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[32917]: Becoming job engine coordinator
2018-05-02T02:59:58Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33518]: Becoming job engine coordinator
2018-05-02T03:02:44Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33782]: Becoming job engine coordinator
2018-05-02T03:08:02Z <24.5> cluster01-39(id58) cluster01-39 isi_job_d[33969]: Becoming job engine coordinator

Cause

  1. База данных отчетов модуля заданий (reports.db) постоянно обновляется из-за длительного выполнения задания, которое генерирует множество обновлений.
  2. Каждое обновление файла выполняется шесть раз в кластере. Снижение степени защиты, по-видимому, ускоряет обновление.
  3. В зависимости от времени паузы в isi_papi_d, ожидается тайм-аут координатора при его записи в базу данных (ведение журнала). Возможно, это также удастся, но запись о том, что запись заняла больше времени, чем требуется, и запись в isi_job_d.log В обоих случаях.
Для определения текущего уровня защиты reports.db
isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db
cluster01-16# isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db
POLICY   W   LEVEL PERFORMANCE COAL  ENCODING      FILE              IADDRS
8x        8     6x concurrency off   UTF-8         reports.db        <25,14,1575794508288:512>, <26,17,484528026624:512>, <26,31,924241684480:512>, <27,31,145164204544:512>, <28,30,2451893562880:512>, <29,29,6440579584:512> ct: 1506750730 rt: 0
*************************************************
* IFS inode: [ 25,14,1575794508288:512, 26,17,484528026624:512, 26,31,924241684480:512, 27,31,145164204544:512, 28,30,2451893562880:512, 29,29,6440579584:512 ]
*************************************************
...
*  Protection Policy:  8x
*  Target Protection:  6x                  <-- six times protection

Resolution

В настоящее время специалисты технического отдела Dell изучают эту проблему. Эта статья обновляется по мере появления новых сведений.

Чтобы обойти эту проблему, выполните следующую команду, чтобы изменить уровень защиты базы данных отчетов о заданиях следующим образом:
  1. Приостановите выполнение любых заданий. Убедитесь, что с помощью команды не выполняется никаких заданий:
isi job status
  1. Отключите модуль заданий и проверьте isi_job_d не работает на всех узлах:
isi services -a isi_job_d disable
isi_for_array -sX 'ps auxww |grep -i isi_job_d |grep -v grep'
  1. Измените уровень защиты reports.db К 3-кратному макету с произвольным доступом:
isi set -r -g reprotect -a random -p 3x -F /ifs/.ifsvar/modules/jobengine/reports.db
  1. Еще один запуск следующей команды должен подтвердить reports.db Изменилось:
isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db

cluster01-16# isi get -DD /ifs/.ifsvar/modules/jobengine/reports.db
POLICY   W   LEVEL PERFORMANCE COAL  ENCODING      FILE              IADDRS
3x       3      3x random off   UTF-8         reports.db        <25,14,1575794508288:512>, <26,31,924241684480:512>, <29,16,157594713088:512> ct: 1506750730 rt: 0
*************************************************
* IFS inode: [ 25,14,1575794508288:512, 26,31,924241684480:512, 29,16,157594713088:512 ]
*************************************************
*...
*  Protection Policy:  3x
*  Target Protection:  3x
  1. Включите модуль заданий:
isi services -a isi_job_d enable
isi_for_array -sX 'ps auxww |grep -i isi_job_d |grep -v grep'
  1. Возобновите задания. Сообщения в isi_job_d.log должно уменьшиться.
Вышеуказанная должна перераспределиться reports.db до 3 раз сразу. Однако некоторые пользователи могут настроить задание SmartPools для работы со всеми файлами вместо файлов по умолчанию.
  • Полный журнал:
[xus25@elvis 2021-09-24-003]$ cat local/isi_storagepool_settings
     Automatically Manage Protection: all  <<<<
Automatically Manage Io Optimization: all 
  • В работающем кластере
steven-8220-1# isi storagepool settings view
     Automatically Manage Protection: all  <<<<
Automatically Manage Io Optimization: all 

Если для параметра «Автоматически управлять» установлено значение «Все», следующее задание SmartPools может выполнить перераспределение reports.db Вернитесь к 6-кратному или 8-кратному зеркальному отображению.
Чтобы избежать этого, рекомендуется установить для параметра «Автоматически управлять защитой» значение «files_at_default».

Если для него установлено значение «files_at_default», задания SmartPools обходят файлы, управляемые вручную, что означает, что они reports.db с любым уровнем защиты, который мы указали.

Additional Information

Ниже приведены некоторые рекомендованные ресурсы по этой теме, которые могут представлять интерес.

Affected Products

PowerScale, Isilon

Products

Isilon, Isilon NL410
Article Properties
Article Number: 000066019
Article Type: Solution
Last Modified: 17 Sep 2025
Version:  16
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.