NetWorker : Le serveur NetWorker déployé sur le cluster de basculement Red Had Enterprise Linux Pacemaker n’a aucune méthode de réglage de l’intervalle de surveillance.

Summary: Pannes intermittentes de NetWorker observées dans les environnements de grands clusters en raison de brèves interruptions de surveillance. Par défaut, la fonction monitor est réessaie trois fois. Aucun paramètre « retry count » n’est disponible. Cet article de la base de connaissances définit des solutions de contournement potentielles et des détails RFE relatifs à une opportunité d’amélioration netWorker. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

  • Le serveur NetWorker est installé sur un cluster de basculement Red Hat Pacemaker (pcs).
  • Il existe des pannes intermittentes dans NetWorker en raison de brèves interruptions de la ressource Pacemaker (PC) pour le serveur NetWorker (par défaut: nws)

Cause

La cause des pannes de cluster peut varier. Cette section définit ce qui est utilisé pour exécuter les fonctions de surveillance du cluster NetWorker. 

Par défaut, la ressource Pacemaker de NetWorker dispose d’une opération de « surveillance ». L’opération comporte des paramètres « interval » et « timeout » qui sont configurés par l’administrateur du cluster lors de la configuration initiale du cluster NetWorker.
root@NWrhelNodeA:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started NWrhelNodeA.emclab.local
    * ip        (ocf::heartbeat:IPaddr):         Started NWrhelNodeA.emclab.local
    * nws       (ocf::EMC_NetWorker:Server):     Started NWrhelNodeA.emclab.local
root@NWrhelNodeA:~# pcs resource config nws
 Resource: nws (class=ocf provider=EMC_NetWorker type=Server)
  Meta Attrs: is-managed=true
  Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0)
              migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0)
              migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0)
              start interval=0 timeout=300 (nws-start-interval-0)
              stop interval=0s timeout=300 (nws-stop-interval-0s)
              validate-all interval=0 timeout=10 (nws-validate-all-interval-0)
              monitor interval=120s timeout=300 (nws-monitor-interval-120s)

NetWorker est configuré pour utiliser Open Cluster Framework (OCF). La fonction de surveillance est définie dans /usr/lib/ocf/resource.d/EMC_NetWorker/Server:

NWServer_monitor() {
        local count

        # exit immediately if configuration is not valid
        NWServer_validate_all || exit $?

        quick_monitor
        if [ $? -eq 0 ]; then
                count=0
                while [ $count -lt 3 ]; do
                        echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
                        if [ $? -eq 0 ]; then
                                return $OCF_SUCCESS
                        else
                                count=`expr ${count} + 1`
                                sleep 1
                        fi
                done
        else
                return $OCF_NOT_RUNNING
        fi

        return $OCF_NOT_RUNNING
}

Remarque : Une défaillance de l’écran ne devrait techniquement jamais se produire dans des circonstances normales et doit indiquer une erreur irrécupérable. Toutefois, certains environnements de grande taille peuvent observer des problèmes intermittents dans lesquels nsradmin peut échouer sur le test de l’écran d’un pacemaker, même si ce n’est que temporairement, ce qui entraîne une panne complète du pacemaker.

Resolution

L’administrateur de cluster doit examiner tous les problèmes de panne de cluster. Les logs de cluster peuvent être examinés pour obtenir des détails sur les interruptions:

  • /var/log/pcsd/pcsd.log
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages
Les logs du serveur NetWorker peuvent également être vérifiés. Le fichier daemon.log du serveur NetWorker se trouve sur le disque partagé (par exemple, /nsr_share).
  • /nsr_share/nsr/logs/daemon.log
Si le rendu en temps réel n’est pas activé, le log .raw peut être rendu dans un fichier .log à l’aide de la commande suivante:
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log

L’administrateur de cluster peut augmenter l’intervalle de surveillance et les valeurs de délai d’expiration de la ressource Pc du serveur NetWorker. Reportez-vous à la documentation Red Hat Pacemaker pour obtenir des instructions sur la modification des valeurs d’expiration du délai, car les commandes Pacemaker peuvent changer entre les versions de Pacemaker.

Par défaut, le pacemaker réessaie la fonction d’écran trois fois. Dans certains cas, cela peut ne pas être suffisant. Une demande d’amélioration (RFE) NW-I-2171 est ouverte par rapport à NetWorker. L’objectif de la RFE est d’introduire une variable « retry count » réglable par l’utilisateur pour NWServer_monitor. Si l’administrateur NetWorker définit un nouveau nombre de nouvelles tentatives, la fonction monitor attend que le montant de nouvelle tentative défini soit terminé avant de provoquer un basculement. Si vous souhaitez suivre cette demande RFE, contactez votre responsable de compte de site Dell ou votre agent commercial avec le numéro RFE NW-I-2171.

Additional Information

La fonction /usr/lib/ocf/resource.d/EMC_NetWorker/Server nsr_monitor peut être modifiée par l’administrateur du cluster pour inclure des fonctions supplémentaires; Toutefois, ce script n’est pas pris en charge par NetWorker. Toutes les modifications apportées à ces scripts sont supprimées lors d’une mise à niveau du serveur NetWorker.

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000216735
Article Type: Solution
Last Modified: 28 Mar 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.