Резервное копирование NMDA DB2 19.4.0.0 каждую ночь происходит случайным сбоем с ошибкой 3

Summary: NMDA 19.4.0.0 DB2: вчера вечером несколько резервных копий DB2 завершились сбоем с ошибкой 3. Проблема была решена после создания нового устройства и распределения резервных копий по двум узлам хранения, а также настройки параметров повторной попытки и тайм-аута DB2. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Клиент NetWorker 19.4.0.0: AIX 7.2
NMDA 19.4.0.0, DB2 Server версии 11.1.4.4
Резервное копирование DB2 случайным образом завершается сбоем каждую ночь
Сбой резервного копирования NMDA DB2 с ошибкой 3
Сбой резервного копирования DB2 с ошибкой «lgto_auth for 'nsrmmd' failed: busy'Проблем
с сетью или межсетевым экраном не обнаружено

В daemon.raw узла хранения отображается 1000 следующих сообщений:
«Сбой поиска 5004-nfs (nfs: Нет такого файла или каталога)"
"Недопустимый поток сохранения"
,"Не удалось указать активный файл"
,"Не удается собрать статистику дедупликации"
,"был прерван и удален из тома"

Ошибка в nmda-messages.log libnsrdb2.log с отладкой=9:
153929 09.02.2021 22:34:50 4 7 987 1 18153790 0 (клиент) (PID18153790) Серьезная проблема NSR Не удалось запустить сессию резервного копирования: занято.   <--- это время EST, было отрисовано в моей лаборатории
93412 09.02.2021 22:34:50 3 5 0 1 18153790 0 (клиент) (pid18153790) Ошибка NSR Не удалось выполнить действие 2. Состояние было изменено на 3. 
153929 1612842069 4 7 987 1 19136950 0 (клиент) (PID19136950) NSR, суровый, 39 Не удалось запустить сессию резервного копирования: %с. 1 49 8 0 4 занято <--- время
GMT 93412 1612842069 3 5 0 1 19136950 0 (клиент) (PID19136950) Ошибка NSR 62 Не удалось выполнить действие %d. Состояние было изменено на %d. 2 1 1 2 1 1 3
(pid = 18809144) (09.02.21 21:40:00.338942) nsrdb2sv_log_program_args: /usr/bin/nsrdasv -LL -T db2 -s (сервер NW) -g (группа) -a *действие политики jobid=2297950 -a *имя политики=(политика) -a *имя рабочего процесса политики=(рабочий процесс) -a *имя действия политики=(действие) -y Вт 23 фев 23:59:59 GMT-0600 2021 -w Вт 23 фев 23:59:59 GMT-0600 2021 -m (клиент) -a *действие политики jobid restart=Да -b (пул) -t 1612810625 -o ....

(pid = 18809144) (02/09/21 21:40:00.624767) Резервное копирование базы данных (БД).
(pid = 18809144) (09.02.21 21:40:00.624939) set_db2_version: Выход из set_db2_version(): Return code: 10050000
(pid = 18809144) (09.02.21 21:49:08.731480) DbBackup: Выход с ошибкой:
невозможно выполнить резервное копирование базы данных DB2MDME из-за сбоя запроса на резервное копирование, SQLCODE : -2025, SQL2025N Произошла ошибка ввода-вывода.  Код ошибки: "3". Носитель, на котором произошла эта ошибка: «ВЕНДОР».
 .
(pid = 18809144) (09.02.21 21:49:08.731631) libdb2sv_main: ERROR: Сбой
DbBackup().(pid = 18809144) (02/09/21 21:49:08.731685) Не удается выполнить резервное копирование базы данных DB2MDME из-за сбоя запроса на резервное копирование, SQLCODE : -2025, SQL2025N Произошла ошибка ввода-вывода.  Код ошибки: "3". Носитель, на котором произошла эта ошибка: «ВЕНДОР».

Критическая ошибка NSRMMD Busy:
02/09/21 21:32:46 (PID 18153790): 02/09/21 21:32:46.797073 lgto_auth для 'nsrd' успешно выполнен
02/09/21 21:32:46 (pid 18153790): 02/09/21 21:32:46.855631 lgto_parms для 'nsrmmd' успешно выполнен
02/09/21 21:32:46 (pid 18153790): 09.02.21 21:32:46.855705 получил 'записи индекса магазина' значение 'Yes'02
/09/21 21:32:46 (pid 18153790): 09.02.21 21:32:46.855803 Сохранение в пуле IDC-DB2.
09.02.21 21:32:46 (PID 18153790): 09.02.21 21:32:46.855822 Сервер включен для немедленного режима
02/09/21 21:32:46 (pid 18153790): 09.02.21 21:32:46.882267 Сбой lgto_auth для 'nsrmmd': занят
09.02.21 21:32:46 (PID 18153790): 09.02.21 21:32:46.882349 Не удается получить учетные данные пользователя для аутентификации Direct Save NSRMMD: busy.
09.02.21 21:32:46 (PID 18153790): 02/09/21 21:32:46.882439 Ошибка TYPE равна 0, СЕРЬЕЗНОСТЬ равна 0, NUMBER равна -13, errnum равна -13, errstr имеет значение "busy".

Cause

Проблемы с конфигурацией/доступностью ресурсов.

Resolution

Проблема была устранена после внесения изменений, описанных ниже. Нет какой-то одной первопричины, но создание нового устройства и настройка параметров ниже помогли большинству из них:

1. Добавлено 1 новое устройство в SN03
2. Равномерно распределенные резервные копии в SN01, SN03 (целевая сессия и т. д.)
3. Изменено время
начала резервного копирования 4. Добавлены следующие параметры в NMDA DB2 Информация о приложении:

NSR_MAX_START_RETRIES=50
NSR_FXBUSY_RETRIES=10
NSR_MMDB_RETRY_TIME=10

5. Время ожидания бездействия увеличено до 300, Retries=2, Retry delay=10

Affected Products

NetWorker Module for Databases and Applications
Article Properties
Article Number: 000183668
Article Type: Solution
Last Modified: 28 رجب 1447
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.