NetWorker: NetWorker-serveren, der er implementeret på Red Had Enterprise Linux Pacemaker-failoverklynge, har ingen metode til at justere overvågningsintervallet.
Summary: Periodiske NetWorker-afbrydelser observeret i store klyngemiljøer pga. korte overvågningsafbrydelser. Som standard prøver skærmfunktionen igen tre gange. Der er ingen tilgængelig parameter for "prøv igen". Denne KB definerer potentielle omgåelser og en RFE-detaljer for en Mulighed for at forbedre NetWorker. ...
Symptoms
- NetWorker-serveren er installeret på en failoverklynge med Red Hat Pacemaker (pc'er).
- Der er periodiske afbrydelser i NetWorker på grund af korte afbrydelser i Pacemaker-ressourcen (pc'er) for NetWorker-serveren (standard er nws)
Cause
Pacemaker-ressourcen for NetWorker har som standard en "skærm"-handling. Handlingen har indstillinger for "interval" og "timeout", som er konfigureret af klyngeadministratoren under den indledende NetWorker-klyngekonfiguration.
root@NWrhelNodeA:~# pcs resource * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started NWrhelNodeA.emclab.local * ip (ocf::heartbeat:IPaddr): Started NWrhelNodeA.emclab.local * nws (ocf::EMC_NetWorker:Server): Started NWrhelNodeA.emclab.local root@NWrhelNodeA:~# pcs resource config nws Resource: nws (class=ocf provider=EMC_NetWorker type=Server) Meta Attrs: is-managed=true Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0) migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0) migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0) start interval=0 timeout=300 (nws-start-interval-0) stop interval=0s timeout=300 (nws-stop-interval-0s) validate-all interval=0 timeout=10 (nws-validate-all-interval-0) monitor interval=120s timeout=300 (nws-monitor-interval-120s)
NetWorker er konfigureret til at bruge OPEN Cluster Framework (OCF). Overvågningsfunktionen er defineret i /usr/lib/ocf/resource.d/EMC_NetWorker/Server:
NWServer_monitor() {
local count
# exit immediately if configuration is not valid
NWServer_validate_all || exit $?
quick_monitor
if [ $? -eq 0 ]; then
count=0
while [ $count -lt 3 ]; do
echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
if [ $? -eq 0 ]; then
return $OCF_SUCCESS
else
count=`expr ${count} + 1`
sleep 1
fi
done
else
return $OCF_NOT_RUNNING
fi
return $OCF_NOT_RUNNING
}
BEMÆRK: Monitor-fejl bør teknisk set ikke forekomme under normale omstændigheder og skal være et tegn på en uoprettelig fejl. Men nogle store miljøer kan opleve periodiske problemer, hvor nsradmin kan mislykkes ved skærmtest af en Pacemaker, selvom det kun er midlertidigt, og det medfører, at Pacemakeren får en fuld afbrydelse.
Resolution
Klyngeadministratoren bør undersøge alle problemer med klyngeafbrydelse. Klyngelogfilerne kan gennemses for oplysninger om afbrydelser:
- /var/log/pcsd/pcsd.log
- /var/log/pacemaker/pacemaker.log
- /var/log/messages
- /nsr_share/nsr/logs/daemon.log
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log
Klyngeadministratoren kan øge skærmintervallet og timeout-værdierne for NetWorker-server-pc'ens ressource. Se Dokumentationen til Red Hat Pacemaker for at få anvisninger til ændring af timeoutværdierne, da Pacemaker-kommandoer kan ændres på tværs af Pacemaker-versioner.
Pacemakeren prøver som standard skærmfunktionen igen tre gange. I nogle tilfælde er dette muligvis ikke tilstrækkeligt. Der åbnes en anmodning om forbedring (RFE) NW-I-2171 i NetWorker. Formålet med RFE er at få introduceret en brugertilpasset "retry count"-variabel for NWServer_monitor. Hvis NetWorker-administratoren definerer et nyt antal forsøg igen, venter skærmfunktionen, indtil den definerede antal forsøg igen er fuldført, før den forårsager en failover. Hvis du vil spore denne RFE, skal du kontakte din Dell Site Account Manager eller salgsrepræsentant med RFE-nummeret NW-I-2171.