NetWorker: NetWorker-Server, die auf dem Red Had Enterprise Linux Pacemaker Failover-Cluster bereitgestellt werden, haben keine Methode zum Tuning des Monitoringintervalls.
Summary: Gelegentliche NetWorker-Ausfälle, die in großen Clusterumgebungen aufgrund kurzer Überwachungsunterbrechungen beobachtet wurden. Standardmäßig wird die Monitorfunktion dreimal erneut versucht. Es ist kein Parameter "retry count" verfügbar. Dieser Wissensdatenbank-Artikel definiert potenzielle Workarounds und eine Angebotsanfrage für eine NetWorker-Verbesserungsmöglichkeit. ...
Symptoms
- Der NetWorker-Server ist auf einem Red Hat Pacemaker (PCS)-Failover-Cluster installiert.
- In NetWorker kommt es aufgrund kurzer Unterbrechungen der Pacemaker-Ressource (PCS) für den NetWorker-Server zu zeitweiligen Ausfällen (Standard ist nws).
Cause
Standardmäßig verfügt die Pacemaker-Ressource für NetWorker über einen "Monitor"-Vorgang. Der Vorgang verfügt über "Intervall" und "Timeout"-Einstellungen, die vom Clusteradministrator während der anfänglichen NetWorker-Clusterkonfiguration konfiguriert werden.
root@NWrhelNodeA:~# pcs resource * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started NWrhelNodeA.emclab.local * ip (ocf::heartbeat:IPaddr): Started NWrhelNodeA.emclab.local * nws (ocf::EMC_NetWorker:Server): Started NWrhelNodeA.emclab.local root@NWrhelNodeA:~# pcs resource config nws Resource: nws (class=ocf provider=EMC_NetWorker type=Server) Meta Attrs: is-managed=true Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0) migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0) migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0) start interval=0 timeout=300 (nws-start-interval-0) stop interval=0s timeout=300 (nws-stop-interval-0s) validate-all interval=0 timeout=10 (nws-validate-all-interval-0) monitor interval=120s timeout=300 (nws-monitor-interval-120s)
NetWorker ist für die Verwendung von Open Cluster Framework (OCF) konfiguriert. Die Überwachungsfunktion ist in /usr/lib/ocf/resource.d/EMC_NetWorker/Server definiert:
NWServer_monitor() {
local count
# exit immediately if configuration is not valid
NWServer_validate_all || exit $?
quick_monitor
if [ $? -eq 0 ]; then
count=0
while [ $count -lt 3 ]; do
echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
if [ $? -eq 0 ]; then
return $OCF_SUCCESS
else
count=`expr ${count} + 1`
sleep 1
fi
done
else
return $OCF_NOT_RUNNING
fi
return $OCF_NOT_RUNNING
}
HINWEIS: Monitorfehler sollten unter normalen Umständen technisch nie auftreten und auf einen nicht behebbaren Fehler hinweisen. In einigen großen Umgebungen treten jedoch gelegentlich Probleme auf, bei denen nsradmin beim Monitortest eines Pacemaker fehlschlagen kann, selbst wenn dies nur vorübergehend erfolgt. Dies führt dazu, dass pacemaker einen vollständigen Ausfall erhebt.
Resolution
Der Clusteradministrator sollte alle Clusterausfallprobleme untersuchen. Die Clusterprotokolle können auf details zu Unterbrechungen überprüft werden:
- /var/log/pcsd/pcsd.log
- /var/log/pacemaker/pacemaker.log
- /var/log/messages
- /nsr_share/nsr/logs/daemon.log
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log
Der Clusteradministrator kann das Überwachungsintervall und die Timeout-Werte für die NetWorker-Server-PCS-Ressource erhöhen. In der Red Hat Pacemaker-Dokumentation finden Sie Anweisungen zum Ändern der Timeout-Werte, da sich Pacemaker-Befehle in allen Pacemaker-Versionen ändern können.
Standardmäßig versucht pacemaker die Monitorfunktion dreimal erneut. In einigen Fällen reicht dies möglicherweise nicht aus. Eine Request For Enhancement (RFE) NW-I-2171 wird für NetWorker geöffnet. Die RFE soll eine benutzertimmbare Variable "Retry Count" für NWServer_monitor eingeführt haben. Wenn der NetWorker-Administrator eine neue Anzahl von Wiederholungsversuchen definiert, wartet die Überwachungsfunktion, bis der definierte Wiederholungsbetrag abgeschlossen ist, bevor ein Failover verursacht wird. Wenn Sie diese Angebotsanfrage nachverfolgen möchten, wenden Sie sich an Ihren Dell Site Account Manager oder Vertriebsmitarbeiter mit der RFE-Nummer NW-I-2171.