NetWorker: Сервер NetWorker, розгорнутий на відмовостійкому кластері Red Had Enterprise Linux Pacemaker, не має методу налаштування інтервалу моніторингу.

Summary: Періодичні відключення NetWorker спостерігаються у великих кластерних середовищах через короткі перерви в моніторингу. За замовчуванням функція монітора повторює спробу тричі. Параметр "кількість повторних спроб" відсутній. Ця служба знань визначає потенційні обхідні шляхи, а також деталізує інформацію про можливість покращення NetWorker. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

  • Сервер NetWorker встановлюється на відмовостійкий кластер Red Hat Pacemaker (PCS).
  • У NetWorker періодично виникають перебої через короткі перерви в ресурсі Pacemaker (pcs) для сервера NetWorker (за замовчуванням використовується nws)

Cause

Причина відключень кластерів може бути різною. У цьому розділі визначено, що використовується для виконання функцій моніторингу кластера NetWorker. 

За замовчуванням ресурс Pacemaker для NetWorker має операцію "монітор". Операція має параметри "інтервал" та "тайм-аут", які налаштовуються адміністратором кластера під час початкової конфігурації кластера NetWorker.
root@NWrhelNodeA:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started NWrhelNodeA.emclab.local
    * ip        (ocf::heartbeat:IPaddr):         Started NWrhelNodeA.emclab.local
    * nws       (ocf::EMC_NetWorker:Server):     Started NWrhelNodeA.emclab.local
root@NWrhelNodeA:~# pcs resource config nws
 Resource: nws (class=ocf provider=EMC_NetWorker type=Server)
  Meta Attrs: is-managed=true
  Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0)
              migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0)
              migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0)
              start interval=0 timeout=300 (nws-start-interval-0)
              stop interval=0s timeout=300 (nws-stop-interval-0s)
              validate-all interval=0 timeout=10 (nws-validate-all-interval-0)
              monitor interval=120s timeout=300 (nws-monitor-interval-120s)

NetWorker налаштовано на використання Open Cluster Framework (OCF). Функція моніторингу визначена в /usr/lib/ocf/resource.d/EMC_NetWorker/Server:

NWServer_monitor() {
        local count

        # exit immediately if configuration is not valid
        NWServer_validate_all || exit $?

        quick_monitor
        if [ $? -eq 0 ]; then
                count=0
                while [ $count -lt 3 ]; do
                        echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
                        if [ $? -eq 0 ]; then
                                return $OCF_SUCCESS
                        else
                                count=`expr ${count} + 1`
                                sleep 1
                        fi
                done
        else
                return $OCF_NOT_RUNNING
        fi

        return $OCF_NOT_RUNNING
}

ПРИМІТКА: Несправність моніторингу технічно ніколи не повинна відбуватися за звичайних обставин і повинна свідчити про помилку, яку неможливо виправити. Однак деякі великі середовища можуть спостерігати періодичні проблеми, коли nsradmin може вийти з ладу під час тестування кардіостимулятора на моніторі, навіть якщо лише тимчасово, і це призводить до повного відключення кардіостимулятора.

Resolution

Адміністратор кластера повинен розслідувати всі проблеми відключення кластера. Журнали кластерів можна переглянути на наявність будь-яких подробиць про переривання:

  • /var/log/pcsd/pcsd.log
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages
Журнали сервера NetWorker також можна переглянути. Демон сервера NetWorker.log знаходиться на спільному диску (наприклад, /nsr_share).
  • /nsr_share/nsr/logs/daemon.log
Якщо рендерінг у реальному часі не ввімкнуто, журнал .raw можна відтворити у файл .log за допомогою такої команди:
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log

Адміністратор кластера може збільшити значення інтервалу монітора та тайм-ауту для ресурсу серверних ПК NetWorker. Дивіться документацію Red Hat Pacemaker, щоб дізнатися, як змінити значення тайм-ауту, оскільки команди Pacemaker можуть змінюватися у версіях Pacemaker.

За замовчуванням кардіостимулятор повторює функцію монітора тричі. У деяких випадках цього може бути недостатньо. Запит на вдосконалення (RFE) NW-I-2171 відкрито проти NetWorker. Намір RFE полягає в тому, щоб для NWServer_monitor була введена настроювана змінна «кількість повторних спроб». Якщо адміністратор NetWorker визначає нову кількість повторень, функція монітора чекає завершення визначеної повторної спроби, перш ніж викликати відмову. Якщо ви хочете відстежувати цей RFE, зверніться до свого менеджера облікового запису сайту Dell або торгового представника за номером RFE NW-I-2171.

Additional Information

Функція /usr/lib/ocf/resource.d/EMC_NetWorker/Server nsr_monitor може бути змінена адміністратором кластера для включення додаткових функцій; однак цей сценарій не підтримується NetWorker. Будь-які зміни в цих сценаріях видаляються під час оновлення сервера NetWorker.

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000216735
Article Type: Solution
Last Modified: 28 Mar 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.