NetWorker: Il server NetWorker implementato nel cluster di failover Red Had Enterprise Linux Pacemaker non ha alcun metodo per ottimizzare l'intervallo di monitoraggio.

Summary: Interruzioni intermittenti di NetWorker riscontrate in ambienti cluster di grandi dimensioni a causa di brevi interruzioni del monitoraggio. Per impostazione predefinita, la funzione monitor effettua tre tentativi. Non è disponibile alcun parametro "numero tentativi". Questo articolo della KB definisce le potenziali soluzioni alternative e i dettagli di una RFE per un'opportunità di miglioramento di NetWorker. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

  • Il server NetWorker è installato su un cluster di failover Red Hat Pacemaker (PCS).
  • Sono presenti interruzioni intermittenti in NetWorker a causa di brevi interruzioni alla risorsa Pacemaker (PCs) per il server NetWorker (l'impostazione predefinita è nws)

Cause

La causa delle interruzioni del cluster può variare. Questa sezione definisce cosa viene utilizzato per eseguire le funzioni di monitoraggio del cluster NetWorker. 

Per impostazione predefinita, la risorsa Pacemaker per NetWorker ha un'operazione "monitor". L'operazione ha le impostazioni "interval" e "timeout" configurate dall'amministratore del cluster durante la configurazione iniziale del cluster NetWorker.
root@NWrhelNodeA:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started NWrhelNodeA.emclab.local
    * ip        (ocf::heartbeat:IPaddr):         Started NWrhelNodeA.emclab.local
    * nws       (ocf::EMC_NetWorker:Server):     Started NWrhelNodeA.emclab.local
root@NWrhelNodeA:~# pcs resource config nws
 Resource: nws (class=ocf provider=EMC_NetWorker type=Server)
  Meta Attrs: is-managed=true
  Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0)
              migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0)
              migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0)
              start interval=0 timeout=300 (nws-start-interval-0)
              stop interval=0s timeout=300 (nws-stop-interval-0s)
              validate-all interval=0 timeout=10 (nws-validate-all-interval-0)
              monitor interval=120s timeout=300 (nws-monitor-interval-120s)

NetWorker è configurato per l'utilizzo di Open Cluster Framework (OCF). La funzione di monitoraggio è definita in /usr/lib/ocf/resource.d/EMC_NetWorker/Server:

NWServer_monitor() {
        local count

        # exit immediately if configuration is not valid
        NWServer_validate_all || exit $?

        quick_monitor
        if [ $? -eq 0 ]; then
                count=0
                while [ $count -lt 3 ]; do
                        echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
                        if [ $? -eq 0 ]; then
                                return $OCF_SUCCESS
                        else
                                count=`expr ${count} + 1`
                                sleep 1
                        fi
                done
        else
                return $OCF_NOT_RUNNING
        fi

        return $OCF_NOT_RUNNING
}

NOTA: Il guasto del monitor non dovrebbe mai verificarsi tecnicamente in circostanze normali e dovrebbe essere indicativo di un errore irreversibile. Tuttavia, in alcuni ambienti di grandi dimensioni potrebbero verificarsi problemi intermittenti in cui nsradmin può non riuscire sul test del monitor di un Pacemaker anche se solo temporaneamente e ciò determina un'interruzione completa dell'attività di Pacemaker.

Resolution

L'amministratore del cluster deve analizzare tutti i problemi di interruzione dell'attività del cluster. I registri del cluster possono essere esaminati per eventuali dettagli sulle interruzioni:

  • /var/log/pcsd/pcsd.log
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages
È inoltre possibile rivedere i registri del server NetWorker. Il file daemon.log del server NetWorker si trova sul disco condiviso (ad esempio, /nsr_share).
  • /nsr_share/nsr/logs/daemon.log
Se il rendering in tempo reale non è abilitato, il registro .raw può essere visualizzato in un file .log con il seguente comando:
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log

L'amministratore del cluster può aumentare i valori dell'intervallo di monitoraggio e del timeout per la risorsa PCs del server NetWorker. Consultare la documentazione di Red Hat Pacemaker per istruzioni su come modificare i valori di timeout, poiché i comandi Pacemaker possono cambiare tra le versioni di Pacemaker.

Per impostazione predefinita, il Pacemaker effettua tre tentativi per la funzione di monitoraggio. In alcuni casi, potrebbe non essere sufficiente. Viene aperta una richiesta di miglioramento (RFE) NW-I-2171 su NetWorker. L'intenzione della RFE è quella di introdurre una variabile di "conteggio tentativi" regolabile per NWServer_monitor. Se l'amministratore di NetWorker definisce un nuovo numero di tentativi, la funzione monitor attende fino al completamento della quantità di tentativi definita prima di causare un failover. Se si desidera tenere traccia di questa RFE, contattare il Dell Site Account Manager o il responsabile vendite con il numero RFE NW-I-2171.

Additional Information

La funzione /usr/lib/ocf/resource.d/EMC_NetWorker/Server nsr_monitor può essere modificata dall'amministratore del cluster per includere funzioni aggiuntive; tuttavia, questo scripting è al di fuori del supporto di NetWorker. Eventuali modifiche a questi script vengono rimosse durante un aggiornamento del server NetWorker.

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000216735
Article Type: Solution
Last Modified: 28 Mar 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.