NetWorker: El servidor de NetWorker implementado en el clúster de conmutación por error Red Had Enterprise Linux Pacemaker no tiene ningún método para ajustar el intervalo de monitoreo.

Summary: Interrupciones intermitentes de NetWorker observadas en ambientes de clústeres grandes debido a breves interrupciones de monitoreo. De manera predeterminada, la función monitor vuelve a intentar tres veces. No hay ningún parámetro "retry count" disponible. Este artículo de la base de conocimientos define posibles soluciones alternativas y detalles de RFE para una oportunidad de mejora de NetWorker. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

  • El servidor de NetWorker se instala en un clúster de conmutación por error de Marcapasos de Red Hat (PCS).
  • Hay interrupciones intermitentes en NetWorker debido a breves interrupciones en el recurso Pacemaker (pcs) para el servidor de NetWorker (el valor predeterminado es nws)

Cause

La causa de las interrupciones del clúster puede variar. En esta sección, se define lo que se utiliza para realizar funciones de monitoreo de clústeres de NetWorker. 

De manera predeterminada, el recurso Marcapasos para NetWorker tiene una operación de "monitoreo". La operación tiene ajustes de "intervalo" y "tiempo de espera" que configura el administrador de clústeres durante la configuración inicial del clúster de NetWorker.
root@NWrhelNodeA:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started NWrhelNodeA.emclab.local
    * ip        (ocf::heartbeat:IPaddr):         Started NWrhelNodeA.emclab.local
    * nws       (ocf::EMC_NetWorker:Server):     Started NWrhelNodeA.emclab.local
root@NWrhelNodeA:~# pcs resource config nws
 Resource: nws (class=ocf provider=EMC_NetWorker type=Server)
  Meta Attrs: is-managed=true
  Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0)
              migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0)
              migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0)
              start interval=0 timeout=300 (nws-start-interval-0)
              stop interval=0s timeout=300 (nws-stop-interval-0s)
              validate-all interval=0 timeout=10 (nws-validate-all-interval-0)
              monitor interval=120s timeout=300 (nws-monitor-interval-120s)

NetWorker está configurado para utilizar Open Cluster Framework (OCF). La función de monitoreo se define en /usr/lib/ocf/resource.d/EMC_NetWorker/Server:

NWServer_monitor() {
        local count

        # exit immediately if configuration is not valid
        NWServer_validate_all || exit $?

        quick_monitor
        if [ $? -eq 0 ]; then
                count=0
                while [ $count -lt 3 ]; do
                        echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
                        if [ $? -eq 0 ]; then
                                return $OCF_SUCCESS
                        else
                                count=`expr ${count} + 1`
                                sleep 1
                        fi
                done
        else
                return $OCF_NOT_RUNNING
        fi

        return $OCF_NOT_RUNNING
}

NOTA: Técnicamente, la falla del monitor nunca debe ocurrir en circunstancias normales y debe ser un indicio de un error irrecuperable. Sin embargo, algunos entornos grandes pueden observar problemas intermitentes en los que nsradmin puede fallar en la prueba de monitor de un marcapasos, incluso si solo se realiza temporalmente, lo que hace que el marcapasos tome una interrupción completa.

Resolution

El administrador del clúster debe investigar todos los problemas de interrupción del clúster. Los registros del clúster se pueden revisar para obtener detalles sobre las interrupciones:

  • /var/log/pcsd/pcsd.log
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages
También se pueden revisar los registros del servidor de NetWorker. Daemon.log del servidor de NetWorker se encuentra en el disco compartido (por ejemplo, /nsr_share).
  • /nsr_share/nsr/logs/daemon.log
Si la representación en tiempo real no está habilitada, el registro.raw se puede representar en un archivo.log con el siguiente comando:
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log

El administrador de clústeres puede aumentar el intervalo del monitor y los valores de tiempo de espera agotado para el recurso de PC del servidor NetWorker. Consulte la documentación de Marcapasos de Red Hat para obtener instrucciones sobre cómo cambiar los valores de tiempo de espera, ya que los comandos de Marcapasos pueden cambiar entre las versiones de Marcapasos.

De manera predeterminada, pacemaker reintenta la función del monitor tres veces. En algunos casos, es posible que esto no sea suficiente. Se abre una solicitud de mejora (RFE) NW-I-2171 contra NetWorker. La intención de la RFE es que se introduzca una variable de "recuento de reintentos" ajustable por el usuario para NWServer_monitor. Si el administrador de NetWorker define un nuevo conteo de reintentos, la función monitor espera hasta que se complete la cantidad de reintentos definida antes de provocar una conmutación por error. Si desea realizar un seguimiento de esta RFE, comuníquese con su administrador de cuentas de sitio o representante de ventas de Dell con el número de RFE NW-I-2171.

Additional Information

El administrador de clústeres puede modificar la función /usr/lib/ocf/resource.d/EMC_NetWorker/Server nsr_monitor para incluir funciones adicionales; sin embargo, este script está fuera del soporte de NetWorker. Cualquier cambio en estos scripts se elimina durante una actualización del servidor de NetWorker.

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000216735
Article Type: Solution
Last Modified: 28 Mar 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.