NetWorker: Сервер NetWorker, розгорнутий на відмовостійкому кластері Red Had Enterprise Linux Pacemaker, не має методу налаштування інтервалу моніторингу.

Table of Contents

Detailed Article

Symptoms

Cause

Resolution

Additional Info

Affected Products

Provide Feedback

Summary: Періодичні відключення NetWorker спостерігаються у великих кластерних середовищах через короткі перерви в моніторингу. За замовчуванням функція монітора повторює спробу тричі. Параметр "кількість повторних спроб" відсутній. Ця служба знань визначає потенційні обхідні шляхи, а також деталізує інформацію про можливість покращення NetWorker. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Symptoms

Сервер NetWorker встановлюється на відмовостійкий кластер Red Hat Pacemaker (PCS).
У NetWorker періодично виникають перебої через короткі перерви в ресурсі Pacemaker (pcs) для сервера NetWorker (за замовчуванням використовується nws)

Cause

Причина відключень кластерів може бути різною. У цьому розділі визначено, що використовується для виконання функцій моніторингу кластера NetWorker.

За замовчуванням ресурс Pacemaker для NetWorker має операцію "монітор". Операція має параметри "інтервал" та "тайм-аут", які налаштовуються адміністратором кластера під час початкової конфігурації кластера NetWorker.

root@NWrhelNodeA:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started NWrhelNodeA.emclab.local
    * ip        (ocf::heartbeat:IPaddr):         Started NWrhelNodeA.emclab.local
    * nws       (ocf::EMC_NetWorker:Server):     Started NWrhelNodeA.emclab.local
root@NWrhelNodeA:~# pcs resource config nws
 Resource: nws (class=ocf provider=EMC_NetWorker type=Server)
  Meta Attrs: is-managed=true
  Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0)
              migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0)
              migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0)
              start interval=0 timeout=300 (nws-start-interval-0)
              stop interval=0s timeout=300 (nws-stop-interval-0s)
              validate-all interval=0 timeout=10 (nws-validate-all-interval-0)
              monitor interval=120s timeout=300 (nws-monitor-interval-120s)

NetWorker налаштовано на використання Open Cluster Framework (OCF). Функція моніторингу визначена в /usr/lib/ocf/resource.d/EMC_NetWorker/Server:

NWServer_monitor() {
        local count

        # exit immediately if configuration is not valid
        NWServer_validate_all || exit $?

        quick_monitor
        if [ $? -eq 0 ]; then
                count=0
                while [ $count -lt 3 ]; do
                        echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
                        if [ $? -eq 0 ]; then
                                return $OCF_SUCCESS
                        else
                                count=`expr ${count} + 1`
                                sleep 1
                        fi
                done
        else
                return $OCF_NOT_RUNNING
        fi

        return $OCF_NOT_RUNNING
}

ПРИМІТКА: Несправність моніторингу технічно ніколи не повинна відбуватися за звичайних обставин і повинна свідчити про помилку, яку неможливо виправити. Однак деякі великі середовища можуть спостерігати періодичні проблеми, коли nsradmin може вийти з ладу під час тестування кардіостимулятора на моніторі, навіть якщо лише тимчасово, і це призводить до повного відключення кардіостимулятора.

Resolution

Адміністратор кластера повинен розслідувати всі проблеми відключення кластера. Журнали кластерів можна переглянути на наявність будь-яких подробиць про переривання:

/var/log/pcsd/pcsd.log
/var/log/pacemaker/pacemaker.log
/var/log/messages

Журнали сервера NetWorker також можна переглянути. Демон сервера NetWorker.log знаходиться на спільному диску (наприклад, /nsr_share).

/nsr_share/nsr/logs/daemon.log

Якщо рендерінг у реальному часі не ввімкнуто, журнал .raw можна відтворити у файл .log за допомогою такої команди:

nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log

Адміністратор кластера може збільшити значення інтервалу монітора та тайм-ауту для ресурсу серверних ПК NetWorker. Дивіться документацію Red Hat Pacemaker, щоб дізнатися, як змінити значення тайм-ауту, оскільки команди Pacemaker можуть змінюватися у версіях Pacemaker.

За замовчуванням кардіостимулятор повторює функцію монітора тричі. У деяких випадках цього може бути недостатньо. Запит на вдосконалення (RFE) NW-I-2171 відкрито проти NetWorker. Намір RFE полягає в тому, щоб для NWServer_monitor була введена настроювана змінна «кількість повторних спроб». Якщо адміністратор NetWorker визначає нову кількість повторень, функція монітора чекає завершення визначеної повторної спроби, перш ніж викликати відмову. Якщо ви хочете відстежувати цей RFE, зверніться до свого менеджера облікового запису сайту Dell або торгового представника за номером RFE NW-I-2171.

Additional Information

Функція /usr/lib/ocf/resource.d/EMC_NetWorker/Server nsr_monitor може бути змінена адміністратором кластера для включення додаткових функцій; однак цей сценарій не підтримується NetWorker. Будь-які зміни в цих сценаріях видаляються під час оновлення сервера NetWorker.

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series

Article Number: 000216735

Article Type: Solution

Last Modified: 28 Mar 2025

Version: 5

Check if your device is covered by Support Services.

NetWorker: Сервер NetWorker, розгорнутий на відмовостійкому кластері Red Had Enterprise Linux Pacemaker, не має методу налаштування інтервалу моніторингу.

Symptoms

Cause

Resolution

Additional Information

Affected Products

Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services