NetWorker: Serwer NetWorker wdrożony w klastrze przełączania awaryjnego Red Had Enterprise Linux Pacemaker nie ma metody dopasowywania interwału monitorowania.

Summary: Sporadyczne przerwy w pracy networker zaobserwowane w dużych środowiskach klastrów z powodu krótkich przerw w monitorowaniu. Domyślnie funkcja monitora jest ponaczanana trzy razy. Nie ma dostępnego parametru "retry count". Ta bazy wiedzy określa potencjalne obejścia i szczegóły RFE dotyczące możliwości rozszerzenia NetWorker. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

  • Serwer NetWorker jest zainstalowany w klastrze przełączania awaryjnego Red Hat Pacemaker (pcs).
  • W oprogramowaniu NetWorker występują okresowe przerwy w pracy spowodowane krótkimi przerwami w pracy serwera NetWorker (pcs) (ustawienie domyślne: NWS)

Cause

Przyczyna awarii klastra może się różnić. Ta sekcja określa, co jest używane do wykonywania funkcji monitora klastra NetWorker. 

Domyślnie zasób Pacemaker dla NetWorker ma operację "monitorowania". Operacja ma ustawienia "interwału" i "limitu czasu", które są konfigurowane przez administratora klastra podczas wstępnej konfiguracji klastra NetWorker.
root@NWrhelNodeA:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started NWrhelNodeA.emclab.local
    * ip        (ocf::heartbeat:IPaddr):         Started NWrhelNodeA.emclab.local
    * nws       (ocf::EMC_NetWorker:Server):     Started NWrhelNodeA.emclab.local
root@NWrhelNodeA:~# pcs resource config nws
 Resource: nws (class=ocf provider=EMC_NetWorker type=Server)
  Meta Attrs: is-managed=true
  Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0)
              migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0)
              migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0)
              start interval=0 timeout=300 (nws-start-interval-0)
              stop interval=0s timeout=300 (nws-stop-interval-0s)
              validate-all interval=0 timeout=10 (nws-validate-all-interval-0)
              monitor interval=120s timeout=300 (nws-monitor-interval-120s)

Oprogramowanie NetWorker jest skonfigurowane do korzystania z open cluster framework (OCF). Funkcja monitorowania jest zdefiniowana w /usr/lib/ocf/resource.d/EMC_NetWorker/Server:

NWServer_monitor() {
        local count

        # exit immediately if configuration is not valid
        NWServer_validate_all || exit $?

        quick_monitor
        if [ $? -eq 0 ]; then
                count=0
                while [ $count -lt 3 ]; do
                        echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
                        if [ $? -eq 0 ]; then
                                return $OCF_SUCCESS
                        else
                                count=`expr ${count} + 1`
                                sleep 1
                        fi
                done
        else
                return $OCF_NOT_RUNNING
        fi

        return $OCF_NOT_RUNNING
}

UWAGA: Awaria monitora nigdy nie powinna występować w normalnych warunkach i powinna oznaczać nieodwracalny błąd. Jednak w niektórych dużych środowiskach mogą występować sporadyczne problemy, w których nsradmin może nie wystąpić podczas testu monitora pacemakera, nawet jeśli został on tylko tymczasowo, co skutkuje całkowitą przerwą w działaniu Pacemaker.

Resolution

Administrator klastra powinien zbadać wszystkie problemy z awarią klastra. Dzienniki klastra można przeglądać pod kątem wszelkich szczegółowych informacji na temat zakłóceń:

  • /var/log/pcsd/pcsd.log
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages
Można również przeglądać dzienniki serwera NetWorker. Demon.log serwera NetWorker znajduje się na dysku udostępnionym (na przykład /nsr_share).
  • /nsr_share/nsr/logs/daemon.log
Jeśli renderowanie w czasie rzeczywistym nie jest włączone, dziennik .raw może być renderowany w pliku .log przy użyciu następującego polecenia:
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log

Administrator klastra może zwiększyć wartość interwału monitora i limitu czasu dla zasobu serwera NetWorker. Informacje na temat zmiany wartości limitu czasu można znaleźć w dokumentacji programu Red Hat Pacemaker, ponieważ polecenia programu Pacemaker mogą ulec zmianie w różnych wersjach programu Pacemaker.

Domyślnie pacemaker ponacza działanie monitora trzy razy. W niektórych przypadkach może to nie wystarczyć. Zgłoszenie do rozszerzenia (RFE) NW-I-2171 jest otwierane dla NetWorker. Celem RFE jest wprowadzenie zmiennej "retry count" dostrajanej przez użytkownika dla NWServer_monitor. Jeśli administrator NetWorker określi nową liczbę ponawianych prób, funkcja monitora czeka na zakończenie określonej ponawiania próby przed spowodowaniem przełączenia awaryjnego. Jeśli chcesz śledzić ten RFE, skontaktuj się z opiekunem klienta w witrynie Dell lub przedstawicielem handlowym pod numerem RFE NW-I-2171.

Additional Information

Funkcja /usr/lib/ocf/resource.d/EMC_NetWorker/Server nsr_monitor może zostać zmodyfikowana przez administratora klastra w celu uwzględnienia dodatkowych funkcji; jednak skrypty te nie są objęte pomocą techniczną NetWorker. Wszelkie zmiany w tych skryptach zostaną usunięte podczas aktualizacji serwera NetWorker.

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000216735
Article Type: Solution
Last Modified: 28 Mar 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.