NetWorker:Red Had Enterprise Linux Pacemakerフェールオーバー クラスターに導入されたNetWorkerサーバーには、監視間隔を調整する方法がありません。

Summary: 大規模なクラスター環境で、短時間の監視の中断により、断続的なNetWorkerの停止が発生しました。デフォルトでは、monitor関数は3回再試行します。「再試行回数」パラメーターは使用できません。このKBでは、潜在的な回避策と、NetWorkerの機能拡張オポチュニティに関するRFEの詳細を定義します。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

  • NetWorkerサーバーは、Red Hat Pacemaker(pcs)フェールオーバー クラスターにインストールされます。
  • NetWorkerサーバーのPacemaker(pcs)リソースの一時的な中断により、NetWorkerで断続的な停止が発生する(デフォルトはnws)

Cause

クラスターの停止の原因は異なる場合があります。このセクションでは、NetWorkerクラスター 監視機能の実行に使用する機能を定義します。

デフォルトでは、NetWorkerのPacemakerリソースには「監視」操作があります。この操作には、NetWorkerクラスターの初期構成時にクラスター管理者によって構成される「インターバル」と「タイムアウト」の設定があります。
root@NWrhelNodeA:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started NWrhelNodeA.emclab.local
    * ip        (ocf::heartbeat:IPaddr):         Started NWrhelNodeA.emclab.local
    * nws       (ocf::EMC_NetWorker:Server):     Started NWrhelNodeA.emclab.local
root@NWrhelNodeA:~# pcs resource config nws
 Resource: nws (class=ocf provider=EMC_NetWorker type=Server)
  Meta Attrs: is-managed=true
  Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0)
              migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0)
              migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0)
              start interval=0 timeout=300 (nws-start-interval-0)
              stop interval=0s timeout=300 (nws-stop-interval-0s)
              validate-all interval=0 timeout=10 (nws-validate-all-interval-0)
              monitor interval=120s timeout=300 (nws-monitor-interval-120s)

NetWorkerは、OCF(Open Cluster Framework)を使用するように構成されています。監視機能は、/usr/lib/ocf/resource.d/EMC_NetWorker/Serverで定義されています。

NWServer_monitor() {
        local count

        # exit immediately if configuration is not valid
        NWServer_validate_all || exit $?

        quick_monitor
        if [ $? -eq 0 ]; then
                count=0
                while [ $count -lt 3 ]; do
                        echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
                        if [ $? -eq 0 ]; then
                                return $OCF_SUCCESS
                        else
                                count=`expr ${count} + 1`
                                sleep 1
                        fi
                done
        else
                return $OCF_NOT_RUNNING
        fi

        return $OCF_NOT_RUNNING
}

メモ: モニターの障害は、技術的には通常の状況では発生せず、回復不能なエラーを示す必要があります。ただし、一部の大規模な環境では、一時的な場合でも、pacemakerのモニター テストでnsradminが失敗し、Pacemakerが完全に停止するという断続的な問題が発生することがあります。

Resolution

クラスター管理者は、すべてのクラスター停止の問題を調査する必要があります。クラスター ログは、中断の詳細を確認できます。

  • /var/log/pcsd/pcsd.log
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages
NetWorkerサーバー ログも確認できます。NetWorkerサーバーのdaemon.logは、共有ディスク(例:/nsr_share)にあります。
  • /nsr_share/nsr/logs/daemon.log
リアルタイム レンダリングが有効になっていない場合は、次のコマンドを使用して.rawログを.logファイルにレンダリングできます。
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log

クラスター管理者は、NetWorkerサーバーpcリソースの監視間隔とタイムアウト値を増やすことができます。PacemakerコマンドがPacemakerバージョン間で変更される可能性があるため、タイムアウト値を変更する方法については、Red Hat Pacemakerのマニュアルを参照してください。

デフォルトでは、Pacemakerはモニター機能を3回再試行します。場合によっては、これでは不十分な場合があります。NetWorkerに対して、RFE(拡張リクエスト)NW-I-2171が開きます。RFEの目的は、ユーザーが調整可能な「再試行回数」変数をNWServer_monitorに導入することです。NetWorker管理者が新しい再試行回数を定義した場合、モニター機能は、定義された再試行回数が完了するまで待機してからフェールオーバーを実行します。このRFEを追跡する場合は、デルのサイト アカウント マネージャーまたはセールス担当者に連絡して、RFE番号NW-I-2171を確認してください。

Additional Information

/usr/lib/ocf/resource.d/EMC_NetWorker/Server nsr_monitor機能は、クラスター管理者が追加の機能を含めるように変更できます。ただし、このスクリプトはNetWorkerのサポート対象外です。これらのスクリプトに対する変更は、NetWorkerサーバーのアップグレード中に削除されます。

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000216735
Article Type: Solution
Last Modified: 28 Mar 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.