NetWorker: Red Had Enterprise Linux Pacemaker -vikasietoklusterissa käyttöönotetun NetWorker-palvelimen valvontaväliä ei voi hienosäätää.
Summary: NetWorker-käyttökatkoksia havaitaan ajoittain suurissa klusteriympäristöissä lyhyiden valvontakatkosten vuoksi. Näytön toiminnot toistuvat oletusarvoisesti kolme kertaa. Retry count -parametria ei ole käytettävissä. Tässä tietämyskannan artikkelissa määritetään mahdolliset kiertotavat ja RFE-tiedot NetWorker-parannusmahdollisuutta varten. ...
Symptoms
- NetWorker-palvelin on asennettu Red Hat Pacemaker (pcs) -vikasietoklusteriin.
- NetWorkerissa on ajoittaisia katkoksia, jotka johtuvat NetWorker-palvelimen Sydämentahdistin (pcs) -resurssin lyhyistä keskeytyksistä (oletus on nws)
Cause
NetWorkerin Sydämentahdistinresurssissa on oletusarvoisesti monitor-toiminto. Toiminnolla on interval- ja timeout-asetukset, jotka klusterin järjestelmänvalvoja on määrittänyt networker-klusterin alkumäärityksen yhteydessä.
root@NWrhelNodeA:~# pcs resource * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started NWrhelNodeA.emclab.local * ip (ocf::heartbeat:IPaddr): Started NWrhelNodeA.emclab.local * nws (ocf::EMC_NetWorker:Server): Started NWrhelNodeA.emclab.local root@NWrhelNodeA:~# pcs resource config nws Resource: nws (class=ocf provider=EMC_NetWorker type=Server) Meta Attrs: is-managed=true Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0) migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0) migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0) start interval=0 timeout=300 (nws-start-interval-0) stop interval=0s timeout=300 (nws-stop-interval-0s) validate-all interval=0 timeout=10 (nws-validate-all-interval-0) monitor interval=120s timeout=300 (nws-monitor-interval-120s)
NetWorker on määritetty käyttämään Open Cluster Frameworkia (OCF). Valvontatoiminto on määritetty kohdassa /usr/lib/ocf/resource.d/EMC_NetWorker/Server:
NWServer_monitor() {
local count
# exit immediately if configuration is not valid
NWServer_validate_all || exit $?
quick_monitor
if [ $? -eq 0 ]; then
count=0
while [ $count -lt 3 ]; do
echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
if [ $? -eq 0 ]; then
return $OCF_SUCCESS
else
count=`expr ${count} + 1`
sleep 1
fi
done
else
return $OCF_NOT_RUNNING
fi
return $OCF_NOT_RUNNING
}
HUOMAUTUS: Näytön vian ei pitäisi tapahtua tekniseltä virheeltä normaaleissa olosuhteissa, ja sen pitäisi viitata peruuttamattomaan virheeseen. Joissakin suurissa ympäristöissä saattaa kuitenkin ilmetä ajoittaisia ongelmia, joiden vuoksi nsradmin voi epäonnistua sydämentahdistimen näyttötestissä, vaikka se olisi vain tilapäisesti käytössä, mikä aiheuttaa täyden katkoksen.
Resolution
Klusterin järjestelmänvalvojan pitäisi tutkia kaikkia klusterin käyttökatkoksia. Klusterilokeista voidaan tarkistaa mahdolliset keskeytysten tiedot:
- /var/log/pcsd/pcsd.log
- /var/log/pacemaker/pacemaker.log
- /var/log/messages
- /nsr_share/nsr/logs/daemon.log
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log
Klusterin järjestelmänvalvoja voi lisätä NetWorker-palvelintietokoneiden resurssin näyttöväli- ja aikakatkaisuarvoja. Katso Red Hat Pacemaker -oppaista ohjeet aikakatkaisuarvojen muuttamiseen, koska Pacemaker-komennot voivat muuttua sydämentahdistinversioissa.
Oletuksena Sydämentahdistin käyttää näyttötoimintoa uudelleen kolme kertaa. Joissakin tapauksissa tämä ei välttämättä riitä. NetWorker avautuu Request For Enhancement (RFE) NW-I-2171 -palvelimelle. RFE:n tarkoituksena on ottaa käyttöön käyttäjän retry count -muuttuja, joka otetaan käyttöön NWServer_monitor. Jos NetWorker-järjestelmänvalvoja määrittää uuden uudelleenyritysten määrän, näyttötoiminto odottaa, kunnes määritetty uudelleenyrityssumma on valmis, ennen kuin se aiheuttaa vikasiedon. Jos haluat seurata tätä RFE:tä, ota yhteys Dellin Toimipaikkaasiakaspäällikköon tai myyntiedustajaan ja ilmoita RFE-numero NW-I-2171.