NetWorker: O servidor do NetWorker implementado no cluster de failover Red Had Enterprise Linux Pacemaker não tem um método de ajuste do intervalo de monitoramento.

Summary: Interrupções intermitentes do NetWorker observadas em ambientes de clusters grandes devido a breves interrupções de monitoramento. Por padrão, a função do monitor é repetida três vezes. Não há nenhum parâmetro "retry count" disponível. Este artigo da KB define possíveis soluções temporárias e detalhes de RFE para uma oportunidade de aprimoramento do NetWorker. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

  • O servidor do NetWorker é instalado em um cluster de failover do Red Hat Pacemaker (pcs).
  • Há interrupções intermitentes no NetWorker devido a breves interrupções no recurso Pacemaker (pcs) para o servidor do NetWorker (o padrão é nws)

Cause

A causa das paralisações do cluster pode variar. Esta seção define o que é usado para executar funções de monitoramento de cluster do NetWorker. 

Por padrão, o recurso Pacemaker do NetWorker tem uma operação de "monitor". A operação tem configurações de "intervalo" e "timeout" que são configuradas pelo administrador do cluster durante a configuração inicial do cluster do NetWorker.
root@NWrhelNodeA:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started NWrhelNodeA.emclab.local
    * ip        (ocf::heartbeat:IPaddr):         Started NWrhelNodeA.emclab.local
    * nws       (ocf::EMC_NetWorker:Server):     Started NWrhelNodeA.emclab.local
root@NWrhelNodeA:~# pcs resource config nws
 Resource: nws (class=ocf provider=EMC_NetWorker type=Server)
  Meta Attrs: is-managed=true
  Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0)
              migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0)
              migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0)
              start interval=0 timeout=300 (nws-start-interval-0)
              stop interval=0s timeout=300 (nws-stop-interval-0s)
              validate-all interval=0 timeout=10 (nws-validate-all-interval-0)
              monitor interval=120s timeout=300 (nws-monitor-interval-120s)

O NetWorker está configurado para usar o Open Cluster Framework (OCF). A função de monitoramento é definida em /usr/lib/ocf/resource.d/EMC_NetWorker/Server:

NWServer_monitor() {
        local count

        # exit immediately if configuration is not valid
        NWServer_validate_all || exit $?

        quick_monitor
        if [ $? -eq 0 ]; then
                count=0
                while [ $count -lt 3 ]; do
                        echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
                        if [ $? -eq 0 ]; then
                                return $OCF_SUCCESS
                        else
                                count=`expr ${count} + 1`
                                sleep 1
                        fi
                done
        else
                return $OCF_NOT_RUNNING
        fi

        return $OCF_NOT_RUNNING
}

Nota: Tecnicamente, a falha do monitor nunca deve ocorrer em circunstâncias normais e deve ser indicativa de um erro irrecuperável. No entanto, alguns ambientes grandes podem observar problemas intermitentes em que o nsradmin pode falhar no teste do monitor de um Pacemaker, mesmo que apenas temporariamente, e isso faz com que o Pacemaker tenha uma interrupção total.

Resolution

O administrador do cluster deve investigar todos os problemas de paralisação do cluster. Os registros do cluster podem ser analisados para obter detalhes sobre interrupções:

  • /var/log/pcsd/pcsd.log
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages
Os registros do servidor do NetWorker também podem ser analisados. O daemon.log do servidor do NetWorker está localizado no disco compartilhado (por exemplo, /nsr_share).
  • /nsr_share/nsr/logs/daemon.log
Se a renderização em tempo real não estiver habilitada, o registro.raw poderá ser processado em um arquivo.log com o seguinte comando:
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log

O administrador do cluster pode aumentar os valores de intervalo e timeout do monitor para o recurso de PCs do servidor do NetWorker. Consulte a documentação do Red Hat Pacemaker para obter instruções sobre como alterar os valores de timeout, pois os comandos pacemaker podem mudar em todas as versões do Pacemaker.

Por padrão, o Pacemaker repetiu a função do monitor três vezes. Em alguns casos, isso pode não ser suficiente. Uma solicitação de aprimoramento (RFE) NW-I-2171 é aberta em relação ao NetWorker. A intenção da RFE é ter uma variável de "contagem de repetições" ajustável do usuário introduzida para NWServer_monitor. Se o administrador do NetWorker definir uma nova contagem de repetições, a função do monitor aguardará até que o valor definido de repetição seja concluído antes de causar um failover. Se você quiser rastrear essa RFE, entre em contato com seu gerente de contas do site da Dell ou representante de vendas com o número de RFE NW-I-2171.

Additional Information

A função /usr/lib/ocf/resource.d/EMC_NetWorker/Server nsr_monitor pode ser modificada pelo administrador do cluster para incluir funções adicionais; no entanto, esse script está fora do suporte do NetWorker. Todas as alterações nesses scripts são removidas durante um upgrade do servidor do NetWorker.

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000216735
Article Type: Solution
Last Modified: 28 Mar 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.