NetWorker: Server NetWorker nasazený v clusteru s podporou převzetí služeb při selhání systému Red Had Enterprise Linux Pacemaker nemá žádnou metodu ladění intervalu monitorování.

Summary: Občasné výpadky funkce NetWorker, ke které dochází v prostředích s velkými clustery kvůli krátkým výpadkům monitorování. Ve výchozím nastavení se funkce monitoru třikrát restartuje. Není k dispozici žádný parametr "retry count". Tento článek databáze znalostí definuje potenciální náhradní řešení a podrobnosti RFE pro příležitost k vylepšení řešení NetWorker. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

  • Server NetWorker je nainstalován v clusteru s podporou převzetí služeb při selhání red Hat Pacemaker (počítače).
  • V softwaru NetWorker dochází k občasným výpadkům kvůli krátkým výpadkům zdroje pacestimulátoru (počítačů) u serveru NetWorker (výchozí nastavení je nws).

Cause

Příčina výpadků clusteru se může lišit. Tato část definuje, co se používá k provádění funkcí monitorování clusteru NetWorker. 

Ve výchozím nastavení má prostředek Pacemaker pro software NetWorker operaci "monitor". Operace má nastavení "interval" a "timeout", které konfiguruje správce clusteru během počáteční konfigurace clusteru NetWorker.
root@NWrhelNodeA:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started NWrhelNodeA.emclab.local
    * ip        (ocf::heartbeat:IPaddr):         Started NWrhelNodeA.emclab.local
    * nws       (ocf::EMC_NetWorker:Server):     Started NWrhelNodeA.emclab.local
root@NWrhelNodeA:~# pcs resource config nws
 Resource: nws (class=ocf provider=EMC_NetWorker type=Server)
  Meta Attrs: is-managed=true
  Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0)
              migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0)
              migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0)
              start interval=0 timeout=300 (nws-start-interval-0)
              stop interval=0s timeout=300 (nws-stop-interval-0s)
              validate-all interval=0 timeout=10 (nws-validate-all-interval-0)
              monitor interval=120s timeout=300 (nws-monitor-interval-120s)

Nástroj NetWorker je nakonfigurován tak, aby používal architekturu Open Cluster Framework (OCF). Monitorovací funkce je definována v umístění /usr/lib/ocf/resource.d/EMC_NetWorker/Server:

NWServer_monitor() {
        local count

        # exit immediately if configuration is not valid
        NWServer_validate_all || exit $?

        quick_monitor
        if [ $? -eq 0 ]; then
                count=0
                while [ $count -lt 3 ]; do
                        echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
                        if [ $? -eq 0 ]; then
                                return $OCF_SUCCESS
                        else
                                count=`expr ${count} + 1`
                                sleep 1
                        fi
                done
        else
                return $OCF_NOT_RUNNING
        fi

        return $OCF_NOT_RUNNING
}

POZNÁMKA: K selhání monitoru by za normálních okolností nemělo dojít technicky nikdy a mělo by značí neobnovitelnou chybu. V některých velkých prostředích však může docházet k občasným problémům, při nichž může nástroj nsradmin při testu monitoru pace modulu Pacemaker selhat, i když jen dočasně, což vede k úplnému výpadku systému Pacemaker.

Resolution

Správce clusteru by měl prozkoumat všechny problémy s výpadky clusteru. Protokoly clusteru lze zkontrolovat, zda nejsou podrobnosti o přerušeních:

  • /var/log/pcsd/pcsd.log
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages
Protokoly serveru NetWorker lze také zkontrolovat. Protokol daemon.log serveru NetWorker se nachází na sdíleném disku (například /nsr_share).
  • /nsr_share/nsr/logs/daemon.log
Pokud není vykreslování v reálném čase povoleno, lze protokol .raw vykreslit do souboru .log pomocí následujícího příkazu:
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log

Správce clusteru může zvýšit hodnoty intervalu a časového limitu monitoru u prostředků serverových počítačů NetWorker. Pokyny ke změně hodnot časového limitu naleznete v dokumentaci systému Red Hat Pacemaker, jelikož se příkazy pacestimulátoru mohou ve verzích pacemakeru měnit.

Ve výchozím nastavení funkci Pacemaker třikrát restartuje. V některých případech to nemusí být dostatečné. Požadavek na rozšíření (RFE) NW-I-2171 je otevřen pro netWorker. Záměrem RFE je, aby byla pro NWServer_monitor zavedena proměnná "retry count", kterou uživatel vyladí. Pokud správce netWorker definuje nový počet opakování, funkce monitoru před vyvoláním převzetí při selhání počká na dokončení definovaného opakování. Chcete-li tento RFE sledovat, obraťte se na svého obchodního zástupce nebo obchodního zástupce společnosti Dell s číslem RFE NW-I-2171.

Additional Information

Funkci /usr/lib/ocf/resource.d/EMC_NetWorker/Server nsr_monitor může správce clusteru upravit tak, aby zahrnoval další funkce. toto skriptování je však mimo podporu netWorker. Veškeré změny těchto skriptů se odstraní během upgradu serveru NetWorker.

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000216735
Article Type: Solution
Last Modified: 28 Mar 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.