NetWorker: NetWorker-server som är distribuerad i Red Had Enterprise Linux Pacemaker-redundanskluster har ingen metod för att justera övervakningsintervallet.
Summary: Tillfälliga NetWorker-avbrott som observerats i stora klustermiljöer på grund av korta övervakningsavbrott. Som standard försöker skärmfunktionen igen tre gånger. Parametern "retry count" är inte tillgänglig. I den här kunskapsdatabasartikeln definieras möjliga lösningar och RFE-information om en förbättringsmöjlighet för NetWorker. ...
Symptoms
- NetWorker-servern är installerad på ett Red Hat Pacemaker-kluster med växling vid fel (pcs).
- Det blir tillfälliga avbrott i NetWorker på grund av korta avbrott i Pacemaker-resursen (pcs) för NetWorker-servern (standard är nws)
Cause
Som standard har Pacemaker-resursen för NetWorker en "skärm"-åtgärd. Åtgärden har inställningar för intervall och timeout som konfigureras av klusteradministratören under den första NetWorker-klusterkonfigurationen.
root@NWrhelNodeA:~# pcs resource * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started NWrhelNodeA.emclab.local * ip (ocf::heartbeat:IPaddr): Started NWrhelNodeA.emclab.local * nws (ocf::EMC_NetWorker:Server): Started NWrhelNodeA.emclab.local root@NWrhelNodeA:~# pcs resource config nws Resource: nws (class=ocf provider=EMC_NetWorker type=Server) Meta Attrs: is-managed=true Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0) migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0) migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0) start interval=0 timeout=300 (nws-start-interval-0) stop interval=0s timeout=300 (nws-stop-interval-0s) validate-all interval=0 timeout=10 (nws-validate-all-interval-0) monitor interval=120s timeout=300 (nws-monitor-interval-120s)
NetWorker har konfigurerats för användning av Open Cluster Framework (OCF). Övervakningsfunktionen definieras i /usr/lib/ocf/resource.d/EMC_NetWorker/Server:
NWServer_monitor() {
local count
# exit immediately if configuration is not valid
NWServer_validate_all || exit $?
quick_monitor
if [ $? -eq 0 ]; then
count=0
while [ $count -lt 3 ]; do
echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
if [ $? -eq 0 ]; then
return $OCF_SUCCESS
else
count=`expr ${count} + 1`
sleep 1
fi
done
else
return $OCF_NOT_RUNNING
fi
return $OCF_NOT_RUNNING
}
Obs! Övervakningsfel ska tekniskt sett aldrig inträffa under normala omständigheter och bör vara ett tecken på ett oåterkalleligt fel. Vissa stora miljöer kan dock drabbas av återkommande problem där nsradmin kan misslyckas vid skärmtest av en Pacemaker även om så bara är tillfälligt, vilket leder till att Pacemaker får ett fullständigt avbrott.
Resolution
Klusteradministratören bör undersöka alla problem med klusterfel. Klusterloggarna kan granskas för mer information om avbrott:
- /var/log/pcsd/pcsd.log
- /var/log/pacemaker/pacemaker.log
- /var/log/messages
- /nsr_share/nsr/logs/daemon.log
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log
Klusteradministratören kan öka skärmintervall- och timeoutvärdena för NetWorker-serverdatorresursen. Mer information om hur du ändrar timeoutvärdena finns i Dokumentationen för Red Hat Pacemaker eftersom Pacemaker-kommandon kan ändras mellan Pacemaker-versioner.
Som standard försöker Pacemaker att återställa skärmfunktionen tre gånger. I vissa fall kanske detta inte räcker. En begäran om förbättring (RFE) NW-I-2171 öppnas mot NetWorker. RFE:s avsikt är att använda en valbar variabel för "retry count" som har införts för NWServer_monitor. Om NetWorker-administratören definierar ett nytt antal försök väntar övervakningsfunktionen tills det definierade omförsöksbeloppet har slutförts innan det orsakar en failover. Om du vill spåra denna RFE kontaktar du din platskontoansvarige på Dell eller en säljare med RFE-numret NW-I-2171.