NetWorker: El servidor de NetWorker implementado en el clúster de conmutación por error Red Had Enterprise Linux Pacemaker no tiene ningún método para ajustar el intervalo de monitoreo.
Summary: Interrupciones intermitentes de NetWorker observadas en ambientes de clústeres grandes debido a breves interrupciones de monitoreo. De manera predeterminada, la función monitor vuelve a intentar tres veces. No hay ningún parámetro "retry count" disponible. Este artículo de la base de conocimientos define posibles soluciones alternativas y detalles de RFE para una oportunidad de mejora de NetWorker. ...
Symptoms
- El servidor de NetWorker se instala en un clúster de conmutación por error de Marcapasos de Red Hat (PCS).
- Hay interrupciones intermitentes en NetWorker debido a breves interrupciones en el recurso Pacemaker (pcs) para el servidor de NetWorker (el valor predeterminado es nws)
Cause
De manera predeterminada, el recurso Marcapasos para NetWorker tiene una operación de "monitoreo". La operación tiene ajustes de "intervalo" y "tiempo de espera" que configura el administrador de clústeres durante la configuración inicial del clúster de NetWorker.
root@NWrhelNodeA:~# pcs resource * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started NWrhelNodeA.emclab.local * ip (ocf::heartbeat:IPaddr): Started NWrhelNodeA.emclab.local * nws (ocf::EMC_NetWorker:Server): Started NWrhelNodeA.emclab.local root@NWrhelNodeA:~# pcs resource config nws Resource: nws (class=ocf provider=EMC_NetWorker type=Server) Meta Attrs: is-managed=true Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0) migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0) migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0) start interval=0 timeout=300 (nws-start-interval-0) stop interval=0s timeout=300 (nws-stop-interval-0s) validate-all interval=0 timeout=10 (nws-validate-all-interval-0) monitor interval=120s timeout=300 (nws-monitor-interval-120s)
NetWorker está configurado para utilizar Open Cluster Framework (OCF). La función de monitoreo se define en /usr/lib/ocf/resource.d/EMC_NetWorker/Server:
NWServer_monitor() {
local count
# exit immediately if configuration is not valid
NWServer_validate_all || exit $?
quick_monitor
if [ $? -eq 0 ]; then
count=0
while [ $count -lt 3 ]; do
echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
if [ $? -eq 0 ]; then
return $OCF_SUCCESS
else
count=`expr ${count} + 1`
sleep 1
fi
done
else
return $OCF_NOT_RUNNING
fi
return $OCF_NOT_RUNNING
}
NOTA: Técnicamente, la falla del monitor nunca debe ocurrir en circunstancias normales y debe ser un indicio de un error irrecuperable. Sin embargo, algunos entornos grandes pueden observar problemas intermitentes en los que nsradmin puede fallar en la prueba de monitor de un marcapasos, incluso si solo se realiza temporalmente, lo que hace que el marcapasos tome una interrupción completa.
Resolution
El administrador del clúster debe investigar todos los problemas de interrupción del clúster. Los registros del clúster se pueden revisar para obtener detalles sobre las interrupciones:
- /var/log/pcsd/pcsd.log
- /var/log/pacemaker/pacemaker.log
- /var/log/messages
- /nsr_share/nsr/logs/daemon.log
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log
El administrador de clústeres puede aumentar el intervalo del monitor y los valores de tiempo de espera agotado para el recurso de PC del servidor NetWorker. Consulte la documentación de Marcapasos de Red Hat para obtener instrucciones sobre cómo cambiar los valores de tiempo de espera, ya que los comandos de Marcapasos pueden cambiar entre las versiones de Marcapasos.
De manera predeterminada, pacemaker reintenta la función del monitor tres veces. En algunos casos, es posible que esto no sea suficiente. Se abre una solicitud de mejora (RFE) NW-I-2171 contra NetWorker. La intención de la RFE es que se introduzca una variable de "recuento de reintentos" ajustable por el usuario para NWServer_monitor. Si el administrador de NetWorker define un nuevo conteo de reintentos, la función monitor espera hasta que se complete la cantidad de reintentos definida antes de provocar una conmutación por error. Si desea realizar un seguimiento de esta RFE, comuníquese con su administrador de cuentas de sitio o representante de ventas de Dell con el número de RFE NW-I-2171.