NetWorker: NetWorker server geïmplementeerd op Red Had Enterprise Linux Pacemaker failovercluster hebben geen methode om het controleinterval af te stemmen.
Summary: Onregelmatige uitval van NetWorker waargenomen in grote clusteromgevingen als gevolg van korte monitoringonderbrekingen. De monitorfunctie wordt standaard drie keer opnieuw weergegeven. Er is geen parameter 'retry count' beschikbaar. In dit KB-artikel worden mogelijke tijdelijke oplossingen en RFE-details voor een NetWorker-uitbreidingskans gedefinieerd. ...
Symptoms
- De NetWorker-server is geïnstalleerd op een Failovercluster van Red Hat Pacemaker (pc's).
- Er zijn af en toe storingen in NetWorker als gevolg van korte onderbrekingen van de Pacemaker-bron (pc's) voor de NetWorker-server (standaard is nws)
Cause
Standaard heeft de Pacemaker-resource voor NetWorker een 'monitor'-bewerking. De bewerking heeft instellingen voor "interval" en "time-out" die door de clusterbeheerder zijn geconfigureerd tijdens de initiële NetWorker clusterconfiguratie.
root@NWrhelNodeA:~# pcs resource * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started NWrhelNodeA.emclab.local * ip (ocf::heartbeat:IPaddr): Started NWrhelNodeA.emclab.local * nws (ocf::EMC_NetWorker:Server): Started NWrhelNodeA.emclab.local root@NWrhelNodeA:~# pcs resource config nws Resource: nws (class=ocf provider=EMC_NetWorker type=Server) Meta Attrs: is-managed=true Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0) migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0) migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0) start interval=0 timeout=300 (nws-start-interval-0) stop interval=0s timeout=300 (nws-stop-interval-0s) validate-all interval=0 timeout=10 (nws-validate-all-interval-0) monitor interval=120s timeout=300 (nws-monitor-interval-120s)
NetWorker is geconfigureerd voor gebruik van Open Cluster Framework (OCF). De bewakingsfunctie wordt gedefinieerd in /usr/lib/ocf/resource.d/EMC_NetWorker/Server:
NWServer_monitor() {
local count
# exit immediately if configuration is not valid
NWServer_validate_all || exit $?
quick_monitor
if [ $? -eq 0 ]; then
count=0
while [ $count -lt 3 ]; do
echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
if [ $? -eq 0 ]; then
return $OCF_SUCCESS
else
count=`expr ${count} + 1`
sleep 1
fi
done
else
return $OCF_NOT_RUNNING
fi
return $OCF_NOT_RUNNING
}
OPMERKING: Een monitorfout mag technisch gezien nooit optreden onder normale omstandigheden en dient een indicatie te zijn van een onherstelbare fout. Sommige grote omgevingen kunnen echter af en toe problemen ondervinden waarbij nsradmin kan mislukken bij de monitortest van een Pacemaker, zelfs als deze slechts tijdelijk is, waardoor de Pacemaker een volledige storing ondervindt.
Resolution
De clusterbeheerder moet alle problemen met de clusterstoring onderzoeken. De clusterlogboeken kunnen worden gecontroleerd op details over onderbrekingen:
- /var/log/pcsd/pcsd.log
- /var/log/pacemaker/pacemaker.log
- /var/log/messages
- /nsr_share/nsr/logs/daemon.log
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log
De clusterbeheerder kan het monitorinterval en de time-outwaarden voor de NetWorker server-pc's verhogen. Zie de documentatie van Red Hat Pacemaker voor instructies over het wijzigen van de time-outwaarden, aangezien Pacemaker-opdrachten kunnen veranderen in alle Pacemaker versies.
Standaard zal de Pacemaker de monitorfunctie drie keer opnieuw invoeren. In sommige gevallen is dit mogelijk niet voldoende. Een Request For Enhancement (RFE) NW-I-2171 wordt geopend op NetWorker. De bedoeling van de RFE is om een instelbare 'retry count'-variabele voor de gebruiker te laten invoeren voor NWServer_monitor. Als de NetWorker-administrator een nieuw aantal pogingen definieert, wacht de monitorfunctie tot het gedefinieerde aantal pogingen is voltooid voordat een failover wordt veroorzaakt. Als u deze RFE wilt volgen, neemt u contact op met uw Dell site accountmanager of verkoopvertegenwoordiger met het RFE-nummer NW-I-2171.