NetWorker. Сервер NetWorker, развернутый в отказоустойчивом кластере Red Had Enterprise Linux Pacemaker, не настраивает интервал мониторинга.
Summary: Периодические перебои в работе NetWorker, наблюдаемые в крупных кластерных средах из-за коротких прерываний мониторинга. По умолчанию функция монитора повторяется три раза. Параметр «Retry count» не доступен. В этой статье базы знаний определены возможные временные решения и приведены сведения о RFE для возможности улучшения NetWorker. ...
Symptoms
- Сервер NetWorker устанавливается на отказоустойчивом кластере Red Hat Pacemaker (ПК).
- В NetWorker периодически возникают сбои из-за коротких прерываний работы ресурса Pacemaker (ПК) для сервера NetWorker (по умолчанию nws)
Cause
По умолчанию ресурс Pacemaker для NetWorker имеет операцию «monitor». Операция включает параметры «интервал» и «тайм-аут», которые настраиваются администратором кластера во время начальной настройки кластера NetWorker.
root@NWrhelNodeA:~# pcs resource * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started NWrhelNodeA.emclab.local * ip (ocf::heartbeat:IPaddr): Started NWrhelNodeA.emclab.local * nws (ocf::EMC_NetWorker:Server): Started NWrhelNodeA.emclab.local root@NWrhelNodeA:~# pcs resource config nws Resource: nws (class=ocf provider=EMC_NetWorker type=Server) Meta Attrs: is-managed=true Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0) migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0) migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0) start interval=0 timeout=300 (nws-start-interval-0) stop interval=0s timeout=300 (nws-stop-interval-0s) validate-all interval=0 timeout=10 (nws-validate-all-interval-0) monitor interval=120s timeout=300 (nws-monitor-interval-120s)
NetWorker настроен на использование Open Cluster Framework (OCF). Функция мониторинга определяется в /usr/lib/ocf/resource.d/EMC_NetWorker/Server:
NWServer_monitor() {
local count
# exit immediately if configuration is not valid
NWServer_validate_all || exit $?
quick_monitor
if [ $? -eq 0 ]; then
count=0
while [ $count -lt 3 ]; do
echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
if [ $? -eq 0 ]; then
return $OCF_SUCCESS
else
count=`expr ${count} + 1`
sleep 1
fi
done
else
return $OCF_NOT_RUNNING
fi
return $OCF_NOT_RUNNING
}
ПРИМЕЧАНИЕ. Отказ монитора технически никогда не должен возникать при обычных условиях и указывает на неустранимую ошибку. Однако в некоторых крупных средах могут возникать периодические проблемы, когда nsradmin может не тестировать pacemaker на мониторе даже в том случае, если это временно, что приводит к полному простою Pacemaker.
Resolution
Администратор кластера должен изучить все проблемы, связанные с простоем кластера. Журналы кластера можно проверить на наличие каких-либо сведений о прерываниях работы:
- /var/log/pcsd/pcsd.log
- /var/log/pacemaker/pacemaker.log
- /var/log/messages
- /nsr_share/nsr/logs/daemon.log
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log
Администратор кластера может увеличить интервал мониторинга и значения тайм-аута для ресурса ПК сервера NetWorker. Инструкции по изменению значений тайм-аута см. в документации Red Hat Pacemaker, так как команды Pacemaker могут изменяться в различных версиях Pacemaker.
По умолчанию Pacemaker три раза повторяет функцию монитора. В некоторых случаях этого может быть недостаточно. В NetWorker открыт запрос на улучшение (RFE) NW-I-2171. Целью RFE является наличие переменной «retry count» (количество повторных попыток), которая не может быть введена для NWServer_monitor. Если администратор NetWorker определяет новое количество повторных попыток, функция монитора ожидает завершения заданного количества повторных попыток, прежде чем вызывать переключение при отказе. Если вы хотите отслеживать этот запрос RFE, обратитесь к своему менеджеру по работе с заказчиками или менеджеру по продажам Dell с номером RFE NW-I-2171.