NetWorker:Red Had Enterprise Linux Pacemakerフェールオーバー クラスターに導入されたNetWorkerサーバーには、監視間隔を調整する方法がありません。
Summary: 大規模なクラスター環境で、短時間の監視の中断により、断続的なNetWorkerの停止が発生しました。デフォルトでは、monitor関数は3回再試行します。「再試行回数」パラメーターは使用できません。このKBでは、潜在的な回避策と、NetWorkerの機能拡張オポチュニティに関するRFEの詳細を定義します。
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
- NetWorkerサーバーは、Red Hat Pacemaker(pcs)フェールオーバー クラスターにインストールされます。
- NetWorkerサーバーのPacemaker(pcs)リソースの一時的な中断により、NetWorkerで断続的な停止が発生する(デフォルトはnws)
Cause
クラスターの停止の原因は異なる場合があります。このセクションでは、NetWorkerクラスター 監視機能の実行に使用する機能を定義します。
デフォルトでは、NetWorkerのPacemakerリソースには「監視」操作があります。この操作には、NetWorkerクラスターの初期構成時にクラスター管理者によって構成される「インターバル」と「タイムアウト」の設定があります。
メモ: モニターの障害は、技術的には通常の状況では発生せず、回復不能なエラーを示す必要があります。ただし、一部の大規模な環境では、一時的な場合でも、pacemakerのモニター テストでnsradminが失敗し、Pacemakerが完全に停止するという断続的な問題が発生することがあります。
デフォルトでは、NetWorkerのPacemakerリソースには「監視」操作があります。この操作には、NetWorkerクラスターの初期構成時にクラスター管理者によって構成される「インターバル」と「タイムアウト」の設定があります。
root@NWrhelNodeA:~# pcs resource * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started NWrhelNodeA.emclab.local * ip (ocf::heartbeat:IPaddr): Started NWrhelNodeA.emclab.local * nws (ocf::EMC_NetWorker:Server): Started NWrhelNodeA.emclab.local root@NWrhelNodeA:~# pcs resource config nws Resource: nws (class=ocf provider=EMC_NetWorker type=Server) Meta Attrs: is-managed=true Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0) migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0) migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0) start interval=0 timeout=300 (nws-start-interval-0) stop interval=0s timeout=300 (nws-stop-interval-0s) validate-all interval=0 timeout=10 (nws-validate-all-interval-0) monitor interval=120s timeout=300 (nws-monitor-interval-120s)
NetWorkerは、OCF(Open Cluster Framework)を使用するように構成されています。監視機能は、/usr/lib/ocf/resource.d/EMC_NetWorker/Serverで定義されています。
NWServer_monitor() {
local count
# exit immediately if configuration is not valid
NWServer_validate_all || exit $?
quick_monitor
if [ $? -eq 0 ]; then
count=0
while [ $count -lt 3 ]; do
echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
if [ $? -eq 0 ]; then
return $OCF_SUCCESS
else
count=`expr ${count} + 1`
sleep 1
fi
done
else
return $OCF_NOT_RUNNING
fi
return $OCF_NOT_RUNNING
}
メモ: モニターの障害は、技術的には通常の状況では発生せず、回復不能なエラーを示す必要があります。ただし、一部の大規模な環境では、一時的な場合でも、pacemakerのモニター テストでnsradminが失敗し、Pacemakerが完全に停止するという断続的な問題が発生することがあります。
Resolution
クラスター管理者は、すべてのクラスター停止の問題を調査する必要があります。クラスター ログは、中断の詳細を確認できます。
- /var/log/pcsd/pcsd.log
- /var/log/pacemaker/pacemaker.log
- /var/log/messages
- /nsr_share/nsr/logs/daemon.log
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log
クラスター管理者は、NetWorkerサーバーpcリソースの監視間隔とタイムアウト値を増やすことができます。PacemakerコマンドがPacemakerバージョン間で変更される可能性があるため、タイムアウト値を変更する方法については、Red Hat Pacemakerのマニュアルを参照してください。
デフォルトでは、Pacemakerはモニター機能を3回再試行します。場合によっては、これでは不十分な場合があります。NetWorkerに対して、RFE(拡張リクエスト)NW-I-2171が開きます。RFEの目的は、ユーザーが調整可能な「再試行回数」変数をNWServer_monitorに導入することです。NetWorker管理者が新しい再試行回数を定義した場合、モニター機能は、定義された再試行回数が完了するまで待機してからフェールオーバーを実行します。このRFEを追跡する場合は、デルのサイト アカウント マネージャーまたはセールス担当者に連絡して、RFE番号NW-I-2171を確認してください。
Additional Information
/usr/lib/ocf/resource.d/EMC_NetWorker/Server nsr_monitor機能は、クラスター管理者が追加の機能を含めるように変更できます。ただし、このスクリプトはNetWorkerのサポート対象外です。これらのスクリプトに対する変更は、NetWorkerサーバーのアップグレード中に削除されます。
Affected Products
NetWorkerProducts
NetWorker Family, NetWorker SeriesArticle Properties
Article Number: 000216735
Article Type: Solution
Last Modified: 28 Mar 2025
Version: 5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.