NetWorker: El servidor de NetWorker implementado en el clúster de conmutación por error Red Had Enterprise Linux Pacemaker no tiene ningún método para ajustar el intervalo de monitoreo.

Resumen: Interrupciones intermitentes de NetWorker observadas en ambientes de clústeres grandes debido a breves interrupciones de monitoreo. De manera predeterminada, la función monitor vuelve a intentar tres veces. No hay ningún parámetro "retry count" disponible. Este artículo de la base de conocimientos define posibles soluciones alternativas y detalles de RFE para una oportunidad de mejora de NetWorker. ...

Productos afectados

Este artículo se aplica a Este artículo no se aplica a Este artículo no está vinculado a ningún producto específico. No se identifican todas las versiones del producto en este artículo.

Consulte estos recursos

Síntomas

El servidor de NetWorker se instala en un clúster de conmutación por error de Marcapasos de Red Hat (PCS).
Hay interrupciones intermitentes en NetWorker debido a breves interrupciones en el recurso Pacemaker (pcs) para el servidor de NetWorker (el valor predeterminado es nws)

Causa

La causa de las interrupciones del clúster puede variar. En esta sección, se define lo que se utiliza para realizar funciones de monitoreo de clústeres de NetWorker.

De manera predeterminada, el recurso Marcapasos para NetWorker tiene una operación de "monitoreo". La operación tiene ajustes de "intervalo" y "tiempo de espera" que configura el administrador de clústeres durante la configuración inicial del clúster de NetWorker.

root@NWrhelNodeA:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started NWrhelNodeA.emclab.local
    * ip        (ocf::heartbeat:IPaddr):         Started NWrhelNodeA.emclab.local
    * nws       (ocf::EMC_NetWorker:Server):     Started NWrhelNodeA.emclab.local
root@NWrhelNodeA:~# pcs resource config nws
 Resource: nws (class=ocf provider=EMC_NetWorker type=Server)
  Meta Attrs: is-managed=true
  Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0)
              migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0)
              migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0)
              start interval=0 timeout=300 (nws-start-interval-0)
              stop interval=0s timeout=300 (nws-stop-interval-0s)
              validate-all interval=0 timeout=10 (nws-validate-all-interval-0)
              monitor interval=120s timeout=300 (nws-monitor-interval-120s)

NetWorker está configurado para utilizar Open Cluster Framework (OCF). La función de monitoreo se define en /usr/lib/ocf/resource.d/EMC_NetWorker/Server:

NWServer_monitor() {
        local count

        # exit immediately if configuration is not valid
        NWServer_validate_all || exit $?

        quick_monitor
        if [ $? -eq 0 ]; then
                count=0
                while [ $count -lt 3 ]; do
                        echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
                        if [ $? -eq 0 ]; then
                                return $OCF_SUCCESS
                        else
                                count=`expr ${count} + 1`
                                sleep 1
                        fi
                done
        else
                return $OCF_NOT_RUNNING
        fi

        return $OCF_NOT_RUNNING
}

NOTA: Técnicamente, la falla del monitor nunca debe ocurrir en circunstancias normales y debe ser un indicio de un error irrecuperable. Sin embargo, algunos entornos grandes pueden observar problemas intermitentes en los que nsradmin puede fallar en la prueba de monitor de un marcapasos, incluso si solo se realiza temporalmente, lo que hace que el marcapasos tome una interrupción completa.

Resolución

El administrador del clúster debe investigar todos los problemas de interrupción del clúster. Los registros del clúster se pueden revisar para obtener detalles sobre las interrupciones:

/var/log/pcsd/pcsd.log
/var/log/pacemaker/pacemaker.log
/var/log/messages

También se pueden revisar los registros del servidor de NetWorker. Daemon.log del servidor de NetWorker se encuentra en el disco compartido (por ejemplo, /nsr_share).

/nsr_share/nsr/logs/daemon.log

Si la representación en tiempo real no está habilitada, el registro.raw se puede representar en un archivo.log con el siguiente comando:

nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log

El administrador de clústeres puede aumentar el intervalo del monitor y los valores de tiempo de espera agotado para el recurso de PC del servidor NetWorker. Consulte la documentación de Marcapasos de Red Hat para obtener instrucciones sobre cómo cambiar los valores de tiempo de espera, ya que los comandos de Marcapasos pueden cambiar entre las versiones de Marcapasos.

De manera predeterminada, pacemaker reintenta la función del monitor tres veces. En algunos casos, es posible que esto no sea suficiente. Se abre una solicitud de mejora (RFE) NW-I-2171 contra NetWorker. La intención de la RFE es que se introduzca una variable de "recuento de reintentos" ajustable por el usuario para NWServer_monitor. Si el administrador de NetWorker define un nuevo conteo de reintentos, la función monitor espera hasta que se complete la cantidad de reintentos definida antes de provocar una conmutación por error. Si desea realizar un seguimiento de esta RFE, comuníquese con su administrador de cuentas de sitio o representante de ventas de Dell con el número de RFE NW-I-2171.

Información adicional

El administrador de clústeres puede modificar la función /usr/lib/ocf/resource.d/EMC_NetWorker/Server nsr_monitor para incluir funciones adicionales; sin embargo, este script está fuera del soporte de NetWorker. Cualquier cambio en estos scripts se elimina durante una actualización del servidor de NetWorker.

Productos afectados

NetWorker

Productos

NetWorker Family, NetWorker Series

Número del artículo: 000216735

Tipo de artículo: Solution

Última modificación: 28 mar 2025

Versión: 5

Compruebe si el dispositivo está cubierto por los servicios de soporte.

NetWorker: El servidor de NetWorker implementado en el clúster de conmutación por error Red Had Enterprise Linux Pacemaker no tiene ningún método para ajustar el intervalo de monitoreo.

Síntomas

Causa

Resolución

Información adicional

Productos afectados

Síntomas

Causa

Resolución

Información adicional

Productos afectados

Productos

Propiedades del artículo

Encuentre respuestas a sus preguntas de otros usuarios de Dell

Servicios de soporte

Propiedades del artículo

Encuentre respuestas a sus preguntas de otros usuarios de Dell

Servicios de soporte

NetWorker: El servidor de NetWorker implementado en el clúster de conmutación por error Red Had Enterprise Linux Pacemaker no tiene ningún método para ajustar el intervalo de monitoreo.

Artículo detallado

Síntomas

Causa

Resolución

Información adicional

Productos afectados

Síntomas

Causa

Resolución

Información adicional

Productos afectados

Productos

Propiedades del artículo

Encuentre respuestas a sus preguntas de otros usuarios de Dell

Servicios de soporte

Propiedades del artículo

Encuentre respuestas a sus preguntas de otros usuarios de Dell

Servicios de soporte