NetWorker: Server NetWorker nasazený v clusteru s podporou převzetí služeb při selhání systému Red Had Enterprise Linux Pacemaker nemá žádnou metodu ladění intervalu monitorování.
Summary: Občasné výpadky funkce NetWorker, ke které dochází v prostředích s velkými clustery kvůli krátkým výpadkům monitorování. Ve výchozím nastavení se funkce monitoru třikrát restartuje. Není k dispozici žádný parametr "retry count". Tento článek databáze znalostí definuje potenciální náhradní řešení a podrobnosti RFE pro příležitost k vylepšení řešení NetWorker. ...
Symptoms
- Server NetWorker je nainstalován v clusteru s podporou převzetí služeb při selhání red Hat Pacemaker (počítače).
- V softwaru NetWorker dochází k občasným výpadkům kvůli krátkým výpadkům zdroje pacestimulátoru (počítačů) u serveru NetWorker (výchozí nastavení je nws).
Cause
Ve výchozím nastavení má prostředek Pacemaker pro software NetWorker operaci "monitor". Operace má nastavení "interval" a "timeout", které konfiguruje správce clusteru během počáteční konfigurace clusteru NetWorker.
root@NWrhelNodeA:~# pcs resource * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started NWrhelNodeA.emclab.local * ip (ocf::heartbeat:IPaddr): Started NWrhelNodeA.emclab.local * nws (ocf::EMC_NetWorker:Server): Started NWrhelNodeA.emclab.local root@NWrhelNodeA:~# pcs resource config nws Resource: nws (class=ocf provider=EMC_NetWorker type=Server) Meta Attrs: is-managed=true Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0) migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0) migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0) start interval=0 timeout=300 (nws-start-interval-0) stop interval=0s timeout=300 (nws-stop-interval-0s) validate-all interval=0 timeout=10 (nws-validate-all-interval-0) monitor interval=120s timeout=300 (nws-monitor-interval-120s)
Nástroj NetWorker je nakonfigurován tak, aby používal architekturu Open Cluster Framework (OCF). Monitorovací funkce je definována v umístění /usr/lib/ocf/resource.d/EMC_NetWorker/Server:
NWServer_monitor() {
local count
# exit immediately if configuration is not valid
NWServer_validate_all || exit $?
quick_monitor
if [ $? -eq 0 ]; then
count=0
while [ $count -lt 3 ]; do
echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
if [ $? -eq 0 ]; then
return $OCF_SUCCESS
else
count=`expr ${count} + 1`
sleep 1
fi
done
else
return $OCF_NOT_RUNNING
fi
return $OCF_NOT_RUNNING
}
POZNÁMKA: K selhání monitoru by za normálních okolností nemělo dojít technicky nikdy a mělo by značí neobnovitelnou chybu. V některých velkých prostředích však může docházet k občasným problémům, při nichž může nástroj nsradmin při testu monitoru pace modulu Pacemaker selhat, i když jen dočasně, což vede k úplnému výpadku systému Pacemaker.
Resolution
Správce clusteru by měl prozkoumat všechny problémy s výpadky clusteru. Protokoly clusteru lze zkontrolovat, zda nejsou podrobnosti o přerušeních:
- /var/log/pcsd/pcsd.log
- /var/log/pacemaker/pacemaker.log
- /var/log/messages
- /nsr_share/nsr/logs/daemon.log
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log
Správce clusteru může zvýšit hodnoty intervalu a časového limitu monitoru u prostředků serverových počítačů NetWorker. Pokyny ke změně hodnot časového limitu naleznete v dokumentaci systému Red Hat Pacemaker, jelikož se příkazy pacestimulátoru mohou ve verzích pacemakeru měnit.
Ve výchozím nastavení funkci Pacemaker třikrát restartuje. V některých případech to nemusí být dostatečné. Požadavek na rozšíření (RFE) NW-I-2171 je otevřen pro netWorker. Záměrem RFE je, aby byla pro NWServer_monitor zavedena proměnná "retry count", kterou uživatel vyladí. Pokud správce netWorker definuje nový počet opakování, funkce monitoru před vyvoláním převzetí při selhání počká na dokončení definovaného opakování. Chcete-li tento RFE sledovat, obraťte se na svého obchodního zástupce nebo obchodního zástupce společnosti Dell s číslem RFE NW-I-2171.