NetWorker: NetWorker-server som er implementert på Red Had Enterprise Linux Pacemaker-failover-klynge, har ingen metode for å justere overvåkingsintervallet.
Summary: Uregelmessige NetWorker-nedetid observert i store klyngemiljøer på grunn av korte overvåkingsavbrudd. Skjermens funksjon aktiveres på nytt tre ganger som standard. Det er ingen tilgjengelig parameter for "antall forsøk på nytt". Denne KB-en definerer potensielle midlertidige løsninger og en RFE-informasjon for en mulighet for forbedring av NetWorker. ...
Symptoms
- NetWorker-serveren er installert på en Red Hat Pacemaker-klynge (PC-er).
- Det er periodisk nedetid i NetWorker på grunn av korte avbrudd i Pacemaker-ressursen (PC-er) for NetWorker-server (standard er nws)
Cause
Pacemaker-ressursen for NetWorker har som standard en «skjerm»-operasjon. Operasjonen har innstillinger for "intervall" og "tidsavbrudd", som konfigureres av klyngeadministratoren under første Konfigurasjon av NetWorker-klynge.
root@NWrhelNodeA:~# pcs resource * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started NWrhelNodeA.emclab.local * ip (ocf::heartbeat:IPaddr): Started NWrhelNodeA.emclab.local * nws (ocf::EMC_NetWorker:Server): Started NWrhelNodeA.emclab.local root@NWrhelNodeA:~# pcs resource config nws Resource: nws (class=ocf provider=EMC_NetWorker type=Server) Meta Attrs: is-managed=true Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0) migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0) migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0) start interval=0 timeout=300 (nws-start-interval-0) stop interval=0s timeout=300 (nws-stop-interval-0s) validate-all interval=0 timeout=10 (nws-validate-all-interval-0) monitor interval=120s timeout=300 (nws-monitor-interval-120s)
NetWorker er konfigurert til å bruke Open Cluster Framework (OCF). Overvåkingsfunksjonen er definert i /usr/lib/ocf/resource.d/EMC_NetWorker/Server:
NWServer_monitor() {
local count
# exit immediately if configuration is not valid
NWServer_validate_all || exit $?
quick_monitor
if [ $? -eq 0 ]; then
count=0
while [ $count -lt 3 ]; do
echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
if [ $? -eq 0 ]; then
return $OCF_SUCCESS
else
count=`expr ${count} + 1`
sleep 1
fi
done
else
return $OCF_NOT_RUNNING
fi
return $OCF_NOT_RUNNING
}
MERK: Monitor failure should technically never occur under normal circumstances and should be indicative of an unrecoverable error. (Skjermfeil skal teknisk sett aldri forekomme under normale forhold og bør være et tegn på en uopprettelig feil. Noen store miljøer kan imidlertid støte på periodiske problemer der nsradmin kan mislykkes på skjermtest av en Pacemaker, selv om det bare er midlertidig, og det fører til at Pacemaker tar et fullstendig strømbrudd.
Resolution
Administratoren for klyngen bør undersøke alle problemer med nedetid i klyngen. Klyngeloggene kan gjennomgås for alle detaljer om avbrudd:
- /var/log/pcsd/pcsd.log
- /var/log/pacemaker/pacemaker.log
- /var/log/messages
- /nsr_share/nsr/logs/daemon.log
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log
Administratoren for klyngen kan øke verdiene for skjermintervall og tidsavbrudd for Ressursen for NetWorker-server-PC-er. Se Dokumentasjon for Red Hat Pacemaker hvis du vil ha informasjon om hvordan du endrer verdiene for tidsavbrudd, ettersom Pacemaker-kommandoer kan endres på tvers av Pacemaker-versjoner.
Pacemaker aktiverer skjermfunksjonen på nytt tre ganger som standard. I enkelte tilfeller er dette kanskje ikke tilstrekkelig. En forespørsel om utvidelse (RFE) NW-I-2171 åpnes mot NetWorker. Hensikten med RFE er å få en variabel for å endre antall brukere introdusert for NWServer_monitor. Hvis NetWorker-administratoren definerer et nytt antall forsøk, venter skjermfunksjonen til den definerte mengden forsøk på nytt er fullført før det forårsaker en failover. Hvis du vil spore denne RFE-en, kan du kontakte kundekontakten eller salgsrepresentanten til Dell med RFE-nummeret NW-I-2171.