NetWorker: Сервер NetWorker, розгорнутий на відмовостійкому кластері Red Had Enterprise Linux Pacemaker, не має методу налаштування інтервалу моніторингу.
Summary: Періодичні відключення NetWorker спостерігаються у великих кластерних середовищах через короткі перерви в моніторингу. За замовчуванням функція монітора повторює спробу тричі. Параметр "кількість повторних спроб" відсутній. Ця служба знань визначає потенційні обхідні шляхи, а також деталізує інформацію про можливість покращення NetWorker. ...
Symptoms
- Сервер NetWorker встановлюється на відмовостійкий кластер Red Hat Pacemaker (PCS).
- У NetWorker періодично виникають перебої через короткі перерви в ресурсі Pacemaker (pcs) для сервера NetWorker (за замовчуванням використовується nws)
Cause
За замовчуванням ресурс Pacemaker для NetWorker має операцію "монітор". Операція має параметри "інтервал" та "тайм-аут", які налаштовуються адміністратором кластера під час початкової конфігурації кластера NetWorker.
root@NWrhelNodeA:~# pcs resource * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started NWrhelNodeA.emclab.local * ip (ocf::heartbeat:IPaddr): Started NWrhelNodeA.emclab.local * nws (ocf::EMC_NetWorker:Server): Started NWrhelNodeA.emclab.local root@NWrhelNodeA:~# pcs resource config nws Resource: nws (class=ocf provider=EMC_NetWorker type=Server) Meta Attrs: is-managed=true Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0) migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0) migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0) start interval=0 timeout=300 (nws-start-interval-0) stop interval=0s timeout=300 (nws-stop-interval-0s) validate-all interval=0 timeout=10 (nws-validate-all-interval-0) monitor interval=120s timeout=300 (nws-monitor-interval-120s)
NetWorker налаштовано на використання Open Cluster Framework (OCF). Функція моніторингу визначена в /usr/lib/ocf/resource.d/EMC_NetWorker/Server:
NWServer_monitor() {
local count
# exit immediately if configuration is not valid
NWServer_validate_all || exit $?
quick_monitor
if [ $? -eq 0 ]; then
count=0
while [ $count -lt 3 ]; do
echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
if [ $? -eq 0 ]; then
return $OCF_SUCCESS
else
count=`expr ${count} + 1`
sleep 1
fi
done
else
return $OCF_NOT_RUNNING
fi
return $OCF_NOT_RUNNING
}
ПРИМІТКА: Несправність моніторингу технічно ніколи не повинна відбуватися за звичайних обставин і повинна свідчити про помилку, яку неможливо виправити. Однак деякі великі середовища можуть спостерігати періодичні проблеми, коли nsradmin може вийти з ладу під час тестування кардіостимулятора на моніторі, навіть якщо лише тимчасово, і це призводить до повного відключення кардіостимулятора.
Resolution
Адміністратор кластера повинен розслідувати всі проблеми відключення кластера. Журнали кластерів можна переглянути на наявність будь-яких подробиць про переривання:
- /var/log/pcsd/pcsd.log
- /var/log/pacemaker/pacemaker.log
- /var/log/messages
- /nsr_share/nsr/logs/daemon.log
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log
Адміністратор кластера може збільшити значення інтервалу монітора та тайм-ауту для ресурсу серверних ПК NetWorker. Дивіться документацію Red Hat Pacemaker, щоб дізнатися, як змінити значення тайм-ауту, оскільки команди Pacemaker можуть змінюватися у версіях Pacemaker.
За замовчуванням кардіостимулятор повторює функцію монітора тричі. У деяких випадках цього може бути недостатньо. Запит на вдосконалення (RFE) NW-I-2171 відкрито проти NetWorker. Намір RFE полягає в тому, щоб для NWServer_monitor була введена настроювана змінна «кількість повторних спроб». Якщо адміністратор NetWorker визначає нову кількість повторень, функція монітора чекає завершення визначеної повторної спроби, перш ніж викликати відмову. Якщо ви хочете відстежувати цей RFE, зверніться до свого менеджера облікового запису сайту Dell або торгового представника за номером RFE NW-I-2171.