NetWorker. Сервер NetWorker, развернутый в отказоустойчивом кластере Red Had Enterprise Linux Pacemaker, не настраивает интервал мониторинга.

Summary: Периодические перебои в работе NetWorker, наблюдаемые в крупных кластерных средах из-за коротких прерываний мониторинга. По умолчанию функция монитора повторяется три раза. Параметр «Retry count» не доступен. В этой статье базы знаний определены возможные временные решения и приведены сведения о RFE для возможности улучшения NetWorker. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

  • Сервер NetWorker устанавливается на отказоустойчивом кластере Red Hat Pacemaker (ПК).
  • В NetWorker периодически возникают сбои из-за коротких прерываний работы ресурса Pacemaker (ПК) для сервера NetWorker (по умолчанию nws)

Cause

Причина простоев кластера может отличаться от указанной. В этом разделе определяется, что используется для выполнения функций мониторинга кластера NetWorker. 

По умолчанию ресурс Pacemaker для NetWorker имеет операцию «monitor». Операция включает параметры «интервал» и «тайм-аут», которые настраиваются администратором кластера во время начальной настройки кластера NetWorker.
root@NWrhelNodeA:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started NWrhelNodeA.emclab.local
    * ip        (ocf::heartbeat:IPaddr):         Started NWrhelNodeA.emclab.local
    * nws       (ocf::EMC_NetWorker:Server):     Started NWrhelNodeA.emclab.local
root@NWrhelNodeA:~# pcs resource config nws
 Resource: nws (class=ocf provider=EMC_NetWorker type=Server)
  Meta Attrs: is-managed=true
  Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0)
              migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0)
              migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0)
              start interval=0 timeout=300 (nws-start-interval-0)
              stop interval=0s timeout=300 (nws-stop-interval-0s)
              validate-all interval=0 timeout=10 (nws-validate-all-interval-0)
              monitor interval=120s timeout=300 (nws-monitor-interval-120s)

NetWorker настроен на использование Open Cluster Framework (OCF). Функция мониторинга определяется в /usr/lib/ocf/resource.d/EMC_NetWorker/Server:

NWServer_monitor() {
        local count

        # exit immediately if configuration is not valid
        NWServer_validate_all || exit $?

        quick_monitor
        if [ $? -eq 0 ]; then
                count=0
                while [ $count -lt 3 ]; do
                        echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
                        if [ $? -eq 0 ]; then
                                return $OCF_SUCCESS
                        else
                                count=`expr ${count} + 1`
                                sleep 1
                        fi
                done
        else
                return $OCF_NOT_RUNNING
        fi

        return $OCF_NOT_RUNNING
}

ПРИМЕЧАНИЕ. Отказ монитора технически никогда не должен возникать при обычных условиях и указывает на неустранимую ошибку. Однако в некоторых крупных средах могут возникать периодические проблемы, когда nsradmin может не тестировать pacemaker на мониторе даже в том случае, если это временно, что приводит к полному простою Pacemaker.

Resolution

Администратор кластера должен изучить все проблемы, связанные с простоем кластера. Журналы кластера можно проверить на наличие каких-либо сведений о прерываниях работы:

  • /var/log/pcsd/pcsd.log
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages
Журналы сервера NetWorker также можно просмотреть. Файл daemon.log сервера NetWorker находится на общем диске (например, /nsr_share).
  • /nsr_share/nsr/logs/daemon.log
Если отрисовка в реальном времени не включена, необработанные журналы можно сделать в файле .log с помощью следующей команды:
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log

Администратор кластера может увеличить интервал мониторинга и значения тайм-аута для ресурса ПК сервера NetWorker. Инструкции по изменению значений тайм-аута см. в документации Red Hat Pacemaker, так как команды Pacemaker могут изменяться в различных версиях Pacemaker.

По умолчанию Pacemaker три раза повторяет функцию монитора. В некоторых случаях этого может быть недостаточно. В NetWorker открыт запрос на улучшение (RFE) NW-I-2171. Целью RFE является наличие переменной «retry count» (количество повторных попыток), которая не может быть введена для NWServer_monitor. Если администратор NetWorker определяет новое количество повторных попыток, функция монитора ожидает завершения заданного количества повторных попыток, прежде чем вызывать переключение при отказе. Если вы хотите отслеживать этот запрос RFE, обратитесь к своему менеджеру по работе с заказчиками или менеджеру по продажам Dell с номером RFE NW-I-2171.

Additional Information

Администратор кластера может изменить функцию /usr/lib/ocf/resource.d/EMC_NetWorker/Server nsr_monitor для добавления дополнительных функций. однако этот сценарий не поддерживает NetWorker. Любые изменения этих сценариев удаляются во время модернизации сервера NetWorker.

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000216735
Article Type: Solution
Last Modified: 28 Mar 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.