NetWorker: Serwer NetWorker wdrożony w klastrze przełączania awaryjnego Red Had Enterprise Linux Pacemaker nie ma metody dopasowywania interwału monitorowania.
Summary: Sporadyczne przerwy w pracy networker zaobserwowane w dużych środowiskach klastrów z powodu krótkich przerw w monitorowaniu. Domyślnie funkcja monitora jest ponaczanana trzy razy. Nie ma dostępnego parametru "retry count". Ta bazy wiedzy określa potencjalne obejścia i szczegóły RFE dotyczące możliwości rozszerzenia NetWorker. ...
Symptoms
- Serwer NetWorker jest zainstalowany w klastrze przełączania awaryjnego Red Hat Pacemaker (pcs).
- W oprogramowaniu NetWorker występują okresowe przerwy w pracy spowodowane krótkimi przerwami w pracy serwera NetWorker (pcs) (ustawienie domyślne: NWS)
Cause
Domyślnie zasób Pacemaker dla NetWorker ma operację "monitorowania". Operacja ma ustawienia "interwału" i "limitu czasu", które są konfigurowane przez administratora klastra podczas wstępnej konfiguracji klastra NetWorker.
root@NWrhelNodeA:~# pcs resource * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started NWrhelNodeA.emclab.local * ip (ocf::heartbeat:IPaddr): Started NWrhelNodeA.emclab.local * nws (ocf::EMC_NetWorker:Server): Started NWrhelNodeA.emclab.local root@NWrhelNodeA:~# pcs resource config nws Resource: nws (class=ocf provider=EMC_NetWorker type=Server) Meta Attrs: is-managed=true Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0) migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0) migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0) start interval=0 timeout=300 (nws-start-interval-0) stop interval=0s timeout=300 (nws-stop-interval-0s) validate-all interval=0 timeout=10 (nws-validate-all-interval-0) monitor interval=120s timeout=300 (nws-monitor-interval-120s)
Oprogramowanie NetWorker jest skonfigurowane do korzystania z open cluster framework (OCF). Funkcja monitorowania jest zdefiniowana w /usr/lib/ocf/resource.d/EMC_NetWorker/Server:
NWServer_monitor() {
local count
# exit immediately if configuration is not valid
NWServer_validate_all || exit $?
quick_monitor
if [ $? -eq 0 ]; then
count=0
while [ $count -lt 3 ]; do
echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
if [ $? -eq 0 ]; then
return $OCF_SUCCESS
else
count=`expr ${count} + 1`
sleep 1
fi
done
else
return $OCF_NOT_RUNNING
fi
return $OCF_NOT_RUNNING
}
UWAGA: Awaria monitora nigdy nie powinna występować w normalnych warunkach i powinna oznaczać nieodwracalny błąd. Jednak w niektórych dużych środowiskach mogą występować sporadyczne problemy, w których nsradmin może nie wystąpić podczas testu monitora pacemakera, nawet jeśli został on tylko tymczasowo, co skutkuje całkowitą przerwą w działaniu Pacemaker.
Resolution
Administrator klastra powinien zbadać wszystkie problemy z awarią klastra. Dzienniki klastra można przeglądać pod kątem wszelkich szczegółowych informacji na temat zakłóceń:
- /var/log/pcsd/pcsd.log
- /var/log/pacemaker/pacemaker.log
- /var/log/messages
- /nsr_share/nsr/logs/daemon.log
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log
Administrator klastra może zwiększyć wartość interwału monitora i limitu czasu dla zasobu serwera NetWorker. Informacje na temat zmiany wartości limitu czasu można znaleźć w dokumentacji programu Red Hat Pacemaker, ponieważ polecenia programu Pacemaker mogą ulec zmianie w różnych wersjach programu Pacemaker.
Domyślnie pacemaker ponacza działanie monitora trzy razy. W niektórych przypadkach może to nie wystarczyć. Zgłoszenie do rozszerzenia (RFE) NW-I-2171 jest otwierane dla NetWorker. Celem RFE jest wprowadzenie zmiennej "retry count" dostrajanej przez użytkownika dla NWServer_monitor. Jeśli administrator NetWorker określi nową liczbę ponawianych prób, funkcja monitora czeka na zakończenie określonej ponawiania próby przed spowodowaniem przełączenia awaryjnego. Jeśli chcesz śledzić ten RFE, skontaktuj się z opiekunem klienta w witrynie Dell lub przedstawicielem handlowym pod numerem RFE NW-I-2171.