NetWorker:部署在 Red Had Enterprise Linux Pacemaker 故障切换群集上的 NetWorker 服务器没有调整监视间隔的方法。

Summary: 由于短暂监视中断,在大型群集环境中观察到间歇性 NetWorker 中断。默认情况下,显示器功能重试三次。没有可用的“重试计数”参数。本知识库文章定义了 NetWorker 增强机会的潜在解决方法和 RFE 详细信息。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

  • NetWorker 服务器安装在 Red Hat Pacemaker (pcs) 故障切换群集上。
  • 由于 NetWorker 服务器的 Pacemaker (pcs) 资源短暂中断,NetWorker 中出现间歇性中断(默认值为 nws)

Cause

群集宕机的原因可能有所不同。本节定义了用于执行 NetWorker 群集监视功能的功能。

默认情况下,NetWorker 的 Pacemaker 资源具有“监视”操作。该操作具有群集管理员在初始 NetWorker 群集配置期间配置的“间隔”和“超时”设置。
root@NWrhelNodeA:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started NWrhelNodeA.emclab.local
    * ip        (ocf::heartbeat:IPaddr):         Started NWrhelNodeA.emclab.local
    * nws       (ocf::EMC_NetWorker:Server):     Started NWrhelNodeA.emclab.local
root@NWrhelNodeA:~# pcs resource config nws
 Resource: nws (class=ocf provider=EMC_NetWorker type=Server)
  Meta Attrs: is-managed=true
  Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0)
              migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0)
              migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0)
              start interval=0 timeout=300 (nws-start-interval-0)
              stop interval=0s timeout=300 (nws-stop-interval-0s)
              validate-all interval=0 timeout=10 (nws-validate-all-interval-0)
              monitor interval=120s timeout=300 (nws-monitor-interval-120s)

NetWorker 配置为使用开放式群集框架 (OCF)。监视功能在 /usr/lib/ocf/resource.d/EMC_NetWorker/Server 中定义:

NWServer_monitor() {
        local count

        # exit immediately if configuration is not valid
        NWServer_validate_all || exit $?

        quick_monitor
        if [ $? -eq 0 ]; then
                count=0
                while [ $count -lt 3 ]; do
                        echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
                        if [ $? -eq 0 ]; then
                                return $OCF_SUCCESS
                        else
                                count=`expr ${count} + 1`
                                sleep 1
                        fi
                done
        else
                return $OCF_NOT_RUNNING
        fi

        return $OCF_NOT_RUNNING
}

提醒:在正常情况下,在技术上不应发生监视故障,并且应指示不可恢复的错误。但是,某些大型环境可能会出现间歇性问题,即使仅临时,nsradmin 也可能会在 Pacemaker 的显示器测试中失败,这会导致 Pacemaker 发生完全中断。

Resolution

群集管理员应调查所有群集宕机问题。可以查看群集日志,了解有关中断的任何详细信息:

  • /var/log/pcsd/pcsd.log
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages
还可以查看 NetWorker 服务器日志。NetWorker 服务器的 daemon.log 位于共享磁盘上(例如/nsr_share)。
  • /nsr_share/nsr/logs/daemon.log
如果未启用实时渲染,则可以使用以下命令将.raw 日志呈现到.log 文件中:
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log

群集管理员可以增加 NetWorker 服务器 pcs 资源的监视间隔和超时值。请参阅 Red Hat Pacemaker 文档,了解有关更改超时值的说明,因为 Pacemaker 命令可能会在 Pacemaker 版本之间发生变化。

默认情况下,Pacemaker 重试显示器功能三次。在某些情况下,这可能不够。针对 NetWorker 打开增强 (RFE) NW-I-2171 请求。RFE 的目的是为NWServer_monitor引入用户可调的“重试计数”变量。如果 NetWorker 管理员定义了新的重试计数,则监视功能将等待定义的重试量完成,然后再导致故障切换。如果您想要跟踪此 RFE,请使用 RFE 编号 NW-I-2171 联系您的戴尔站点客户经理或销售代表。

Additional Information

群集管理员可以修改 /usr/lib/ocf/resource.d/EMC_NetWorker/Server nsr_monitor 函数,以包括其他功能;但是,此脚本不支持 NetWorker。在 NetWorker 服务器升级期间,将删除对这些脚本的任何更改。

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000216735
Article Type: Solution
Last Modified: 28 Mar 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.