NetWorker:部署在 Red Had Enterprise Linux Pacemaker 容錯移轉叢集上的 NetWorker 伺服器沒有調整監視間隔的方法。
Summary: 由於短暫監視中斷,在大型叢集環境中觀察到間歇性 NetWorker 中斷。依預設,顯示器功能會重試三次。沒有可用的「重試次數」參數。本知識庫文章定義了潛在的因應措施,以及 NetWorker 增強商機的 RFE 詳細資料。
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
- NetWorker 伺服器安裝在 Red Hat Pacemaker (pcs) 容錯移轉叢集上。
- 由於 NetWorker 伺服器的 Pacemaker (pcs) 資源短暫中斷,導致 NetWorker 發生間歇性中斷 (預設值為 nws)
Cause
叢集中斷的原因可能有所不同。本節定義用於執行 NetWorker 叢集監視器功能的內容。
根據預設,NetWorker 的 Pacemaker 資源有「monitor」作業。此作業有「間隔」和「逾時」設定,由叢集管理員在初始 NetWorker 叢集組態期間進行設定。
注意:在技術上不應在正常情況下發生監視故障,且應表示無法復原的錯誤。然而,某些大型環境可能會發生間歇性問題,nsradmin 可能會在 Pacemaker 的監視器測試中失敗,即使只是暫時,也會導致 Pacemaker 完全中斷運作。
根據預設,NetWorker 的 Pacemaker 資源有「monitor」作業。此作業有「間隔」和「逾時」設定,由叢集管理員在初始 NetWorker 叢集組態期間進行設定。
root@NWrhelNodeA:~# pcs resource * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started NWrhelNodeA.emclab.local * ip (ocf::heartbeat:IPaddr): Started NWrhelNodeA.emclab.local * nws (ocf::EMC_NetWorker:Server): Started NWrhelNodeA.emclab.local root@NWrhelNodeA:~# pcs resource config nws Resource: nws (class=ocf provider=EMC_NetWorker type=Server) Meta Attrs: is-managed=true Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0) migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0) migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0) start interval=0 timeout=300 (nws-start-interval-0) stop interval=0s timeout=300 (nws-stop-interval-0s) validate-all interval=0 timeout=10 (nws-validate-all-interval-0) monitor interval=120s timeout=300 (nws-monitor-interval-120s)
NetWorker 已設定為使用開放式叢集架構 (OCF)。在 /usr/lib/ocf/resource.d/EMC_NetWorker/Server 中定義監視功能:
NWServer_monitor() {
local count
# exit immediately if configuration is not valid
NWServer_validate_all || exit $?
quick_monitor
if [ $? -eq 0 ]; then
count=0
while [ $count -lt 3 ]; do
echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
if [ $? -eq 0 ]; then
return $OCF_SUCCESS
else
count=`expr ${count} + 1`
sleep 1
fi
done
else
return $OCF_NOT_RUNNING
fi
return $OCF_NOT_RUNNING
}
注意:在技術上不應在正常情況下發生監視故障,且應表示無法復原的錯誤。然而,某些大型環境可能會發生間歇性問題,nsradmin 可能會在 Pacemaker 的監視器測試中失敗,即使只是暫時,也會導致 Pacemaker 完全中斷運作。
Resolution
叢集管理員應調查所有叢集中斷問題。如有任何中斷的詳細資料,可檢視叢集記錄:
- /var/log/pcsd/pcsd.log
- /var/log/pacemaker/pacemaker.log
- /var/log/messages
- /nsr_share/nsr/logs/daemon.log
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log
叢集管理員可以增加 NetWorker 伺服器個人電腦資源的監視器間隔和逾時值。如需變更逾時值的指示,請參閱 Red Hat Pacemaker 說明文件,因為 Pacemaker 命令可能會在 Pacemaker 版本中變更。
依預設,Pacemaker 會重試顯示器功能三次。在某些情況下,這可能不夠用。NetWorker 隨即開啟增強功能要求 (RFE) NW-I-2171。RFE 的用意是為NWServer_monitor導入使用者可調和的「重試次數」變數。如果 NetWorker 系統管理員定義新的重試次數,則監視器功能會等待,直到定義的重試次數完成後再造成容錯移轉。如果您想要追蹤此 RFE,請使用 RFE 號碼 NW-I-2171 聯絡您的 Dell 網站客戶經理或銷售代表。
Additional Information
叢集管理員可修改 /usr/lib/ocf/resource.d/EMC_NetWorker/Server nsr_monitor功能,以包含其他功能;但是,此指令檔不屬於 NetWorker 支援範圍。在 NetWorker 伺服器升級期間,會移除對這些腳本進行的任何變更。
Affected Products
NetWorkerProducts
NetWorker Family, NetWorker SeriesArticle Properties
Article Number: 000216735
Article Type: Solution
Last Modified: 28 Mar 2025
Version: 5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.