NetWorker: NetWorker-Server, die auf dem Red Had Enterprise Linux Pacemaker Failover-Cluster bereitgestellt werden, haben keine Methode zum Tuning des Monitoringintervalls.

Summary: Gelegentliche NetWorker-Ausfälle, die in großen Clusterumgebungen aufgrund kurzer Überwachungsunterbrechungen beobachtet wurden. Standardmäßig wird die Monitorfunktion dreimal erneut versucht. Es ist kein Parameter "retry count" verfügbar. Dieser Wissensdatenbank-Artikel definiert potenzielle Workarounds und eine Angebotsanfrage für eine NetWorker-Verbesserungsmöglichkeit. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

  • Der NetWorker-Server ist auf einem Red Hat Pacemaker (PCS)-Failover-Cluster installiert.
  • In NetWorker kommt es aufgrund kurzer Unterbrechungen der Pacemaker-Ressource (PCS) für den NetWorker-Server zu zeitweiligen Ausfällen (Standard ist nws).

Cause

Die Ursache für Clusterausfälle kann variieren. In diesem Abschnitt wird definiert, was zur Ausführung von NetWorker-Clusterüberwachungsfunktionen verwendet wird. 

Standardmäßig verfügt die Pacemaker-Ressource für NetWorker über einen "Monitor"-Vorgang. Der Vorgang verfügt über "Intervall" und "Timeout"-Einstellungen, die vom Clusteradministrator während der anfänglichen NetWorker-Clusterkonfiguration konfiguriert werden.
root@NWrhelNodeA:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started NWrhelNodeA.emclab.local
    * ip        (ocf::heartbeat:IPaddr):         Started NWrhelNodeA.emclab.local
    * nws       (ocf::EMC_NetWorker:Server):     Started NWrhelNodeA.emclab.local
root@NWrhelNodeA:~# pcs resource config nws
 Resource: nws (class=ocf provider=EMC_NetWorker type=Server)
  Meta Attrs: is-managed=true
  Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0)
              migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0)
              migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0)
              start interval=0 timeout=300 (nws-start-interval-0)
              stop interval=0s timeout=300 (nws-stop-interval-0s)
              validate-all interval=0 timeout=10 (nws-validate-all-interval-0)
              monitor interval=120s timeout=300 (nws-monitor-interval-120s)

NetWorker ist für die Verwendung von Open Cluster Framework (OCF) konfiguriert. Die Überwachungsfunktion ist in /usr/lib/ocf/resource.d/EMC_NetWorker/Server definiert:

NWServer_monitor() {
        local count

        # exit immediately if configuration is not valid
        NWServer_validate_all || exit $?

        quick_monitor
        if [ $? -eq 0 ]; then
                count=0
                while [ $count -lt 3 ]; do
                        echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
                        if [ $? -eq 0 ]; then
                                return $OCF_SUCCESS
                        else
                                count=`expr ${count} + 1`
                                sleep 1
                        fi
                done
        else
                return $OCF_NOT_RUNNING
        fi

        return $OCF_NOT_RUNNING
}

HINWEIS: Monitorfehler sollten unter normalen Umständen technisch nie auftreten und auf einen nicht behebbaren Fehler hinweisen. In einigen großen Umgebungen treten jedoch gelegentlich Probleme auf, bei denen nsradmin beim Monitortest eines Pacemaker fehlschlagen kann, selbst wenn dies nur vorübergehend erfolgt. Dies führt dazu, dass pacemaker einen vollständigen Ausfall erhebt.

Resolution

Der Clusteradministrator sollte alle Clusterausfallprobleme untersuchen. Die Clusterprotokolle können auf details zu Unterbrechungen überprüft werden:

  • /var/log/pcsd/pcsd.log
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages
NetWorker-Serverprotokolle können ebenfalls überprüft werden. Die Datei daemon.log des NetWorker-Servers befindet sich auf der freigegebenen Festplatte (z. B. /nsr_share).
  • /nsr_share/nsr/logs/daemon.log
Wenn das Echtzeitrendering nicht aktiviert ist, kann das RAW-Protokoll mit dem folgenden Befehl in eine .log-Datei gerendert werden:
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log

Der Clusteradministrator kann das Überwachungsintervall und die Timeout-Werte für die NetWorker-Server-PCS-Ressource erhöhen. In der Red Hat Pacemaker-Dokumentation finden Sie Anweisungen zum Ändern der Timeout-Werte, da sich Pacemaker-Befehle in allen Pacemaker-Versionen ändern können.

Standardmäßig versucht pacemaker die Monitorfunktion dreimal erneut. In einigen Fällen reicht dies möglicherweise nicht aus. Eine Request For Enhancement (RFE) NW-I-2171 wird für NetWorker geöffnet. Die RFE soll eine benutzertimmbare Variable "Retry Count" für NWServer_monitor eingeführt haben. Wenn der NetWorker-Administrator eine neue Anzahl von Wiederholungsversuchen definiert, wartet die Überwachungsfunktion, bis der definierte Wiederholungsbetrag abgeschlossen ist, bevor ein Failover verursacht wird. Wenn Sie diese Angebotsanfrage nachverfolgen möchten, wenden Sie sich an Ihren Dell Site Account Manager oder Vertriebsmitarbeiter mit der RFE-Nummer NW-I-2171.

Additional Information

Die Funktion /usr/lib/ocf/resource.d/EMC_NetWorker/Server nsr_monitor kann vom Clusteradministrator geändert werden, um zusätzliche Funktionen einzuschließen. dieses Scripting liegt jedoch außerhalb des NetWorker-Supports. Alle Änderungen an diesen Skripten werden während eines NetWorker-Serverupgrades entfernt.

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000216735
Article Type: Solution
Last Modified: 28 Mar 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.