NetWorker: Průvodce odstraňováním problémů se službou Red Hat Cluster Service

Summary: Tento článek poskytuje přehled, jak přistupovat k problémům se spuštěním služby NetWorker u serverů NetWorker nasazených v clusterech Red Hat Pacemaker (pcs). Tento článek je vhodný pro správce zálohování NetWorker a podporu NetWorker, aby vám pomohl s řešením těchto problémů. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Servery NetWorker lze nasadit v konfiguraci převzetí služeb při selhání clusteru na uzlech Red Hat pomocí kardiostimulátoru (pcs) služby. Nástroj NetWorker je nainstalován na více uzlech. Databáze serveru jsou ve sdíleném úložišti a předávají se mezi uzly na základě aktivního uzlu v konfiguraci pacemakeru. Server NetWorker používá sdílený název clusteru a IP adresu, což zajišťuje konzistentní pojmenování a adresování bez ohledu na hostitelský uzel. Podrobnosti o nastavení nástroje NetWorker v clusteru naleznete v průvodci integrací clusteru NetWorker. Tato příručka je k dispozici na stránce podpory společnosti Dell

Topologie clusteru:

Tento článek používá ukázkový cluster s následující konfigurací:
 
Topologie clusteru NetWorker

Název hostitele
IP adresa
Funkce
lnx-node1.amer.lan
192.168.9.108
Fyzický uzel 1
lnx-node2.amer.lan
192.168.9.109
Fyzický uzel 2
lnx-nwcluster.amer.lan
192.168.9.110
Logický název používaný nástrojem NetWorker


Systém souborů na uzlech spravuje nástroj NetWorker pomocí symbolických odkazů.

Aktivní uzel:

Aktivní uzel, ve kterém je spuštěn server NetWorker, symbolicky odkazuje /nsr Do umístění sdíleného úložiště:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     14 Oct  5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x.  11 root root    116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x.   3 root root     17 Aug 31 17:23 nsr_share

Pasivní uzel:

"Pasivní" uzel symbolicky odkazuje /nsr na /nsr.NetWorker.local:
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     20 Oct  3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x.  11 root root    116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x.   2 root root      6 Aug 31 17:18 nsr_share

Když je uzel v pasivním stavu, nsrexecd (klient NetWorker) je software spuštěn pomocí /nsr.NetWorker.local. Každý fyzický uzel má svůj vlastní prostředek klienta, který používá přeložitelný název DNS (Domain Name System) a IP adresu fyzického uzlu. Server NetWorker lze spustit pouze pomocí sdíleného úložiště (/nsr_share) a používá sdílenou IP adresu a název hostitele. To může být v jednom okamžiku aktivní pouze na jednom uzlu. 

Následující kardiostimulátor (pcs) slouží k získání přehledu o konfiguraci a stavu kardiostimulátoru:

  • Konfigurace clusteru:

pcs status
Příklad:
root@lnx-node1:~# pcs status 
Cluster name: rhelclus 
Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) 
Cluster Summary: 
  * Stack: corosync 
  * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum 
  * Last updated: Thu Oct 5 10:59:20 2023 
  * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan 
  * 2 nodes configured 
  * 3 resource instances configured 

Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan 
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan 
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled
Z výše uvedeného výstupu můžeme zjistit, kolik uzlů je v clusteru a zda jsou některé z nich offline nebo v pohotovostním režimu. Výstup také ukazuje, který uzel je hostitelem sdíleného systému souborů (fs), IP adresa prostředku clusteru (ip) a služby NetWorker (nws). Názvy zde použitých prostředků jsou výchozí hodnoty použité v Příručce integrace clusteru NetWorker. Je však možné, že se používají různé názvy. Pokud používáte různé názvy, poznamenejte si názvy prostředků a podle potřeby je nahraďte podle pokynů v tomto článku.
  • Konfigurace prostředků Pacemakeru:
pcs resource config

Příklad:

root@lnx-node1:~# pcs resource config 
Group: NW_group 
  Resource: fs (class=ocf provider=heartbeat type=Filesystem)
    Attributes: fs-instance_attributes 
      device=/dev/sdb1 
      directory=/nsr_share 
      fstype=xfs 
    Operations: 
      monitor: fs-monitor-interval-20 
        interval=20 
        timeout=300 
      start: fs-start-interval-0s 
        interval=0s 
        timeout=60s 
      stop: fs-stop-interval-0s interval=0s timeout=60s 
  Resource: ip (class=ocf provider=heartbeat type=IPaddr) 
    Attributes: ip-instance_attributes 
      cidr_netmask=24 
      ip=192.1xx.9.1x0 
      nic=ens192 
    Operations: 
      monitor: ip-monitor-interval-15 
        interval=15 
        timeout=120 
      start: ip-start-interval-0s 
        interval=0s 
        timeout=20s 
      stop: ip-stop-interval-0s 
        interval=0s 
        timeout=20s 
  Resource: nws (class=ocf provider=EMC_NetWorker type=Server) 
    Meta Attributes: nws-meta_attributes 
      is-managed=true 
    Operations: 
      meta-data: nws-meta-data-interval-0 
        interval=0 
        timeout=10 
      migrate_from: nws-migrate_from-interval-0 
        interval=0 
        timeout=120
      migrate_to: nws-migrate_to-interval-0 
        interval=0 
        timeout=60 
      monitor: nws-monitor-interval-100 
        interval=100 
        timeout=1200 
      start: nws-start-interval-0 
        interval=0 
        timeout=600 
      stop: nws-stop-interval-0 
        interval=0 
        timeout=600 
      validate-all: nws-validate-all-interval-0 
        interval=0 
        timeout=10

 Výše uvedený příkaz obsahuje podrobnosti o každém z nich. pcs konfigurace zdrojů. Důležité věci, které je třeba si uvědomit během úvodního přehledu:

  • Zdroj FS "device=": Jedná se o zařízení, které slouží jako přípojný bod pro sdílené úložiště v systému souborů uzlu. Toto zařízení musí být na každém uzlu stejné. To je popsáno dále v tomto článku znalostní databáze.
  • Zdroj FS "directory=": Toto je adresář, který používá sdílené úložiště NetWorker. Adresář by měl být přiřazen jako přípojný bod pro pole "device=". To je popsáno dále v tomto článku znalostní databáze.
  • Zdroj IP "ip=": Jedná se o IP adresu přiřazenou k logickému (sdílenému) názvu hostitele používanému serverem NetWorker. Tato IP adresa je hostovaná na aktivním uzlu.
  • Viditelnost sdílené adresy a úložiště kardiostimulátoru:
lcmap

Příklad:

root@lnx-node1:~# lcmap
type: NSR_CLU_TYPE;
clu_type: NSR_LC_TYPE;
interface version: 1.0;

type: NSR_CLU_VIRTHOST;
hostname: 192.168.9.110;
local: TRUE;
owned paths: /nsr_share;

clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
POZNÁMKA: Název hostitele by měl vrátit IP adresu odpovídající z pcs resource config "ip=" pole. Vlastněné cesty by měly odpovídat pcs resource config "directory=" pole. V některých případech, když je pozorován problém se spuštěním, lcmap Příkaz nevrací pole HostName, Local nebo Owned Paths; To značí problém.

Počáteční diagnóza:

Pokud se služby NetWorker nespustí, zkontrolujte pcs Stav prostředku a zjištění, který zdroj selhává:

pcs status
Příklad: 
root@lnx-node1:~# pcs status 
... 
... 
Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs    (ocf::heartbeat:Filesystem):   Started lnx-node1.amer.lan 
    * ip    (ocf::heartbeat:IPaddr):       Started lnx-node1.amer.lan 
    * nws   (ocf::EMC_NetWorker:Server):   Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

 Pokud je pozorována chyba, zobrazí se obecná chybová zpráva. Prostředky, které selhaly, se zobrazují jako FAILED. 

  • FS (systém souborů): Pokud je systém souborů ve stavu selhání, přečtěte si níže uvedenou část o selháních systému souborů.
  • IP adresa (IPaddr): Pokud je adaptér IPaddr ve stavu selhání, přečtěte si níže uvedenou část o selháních zařízení IPaddr.
  • NWS (server): Pokud server NetWorker selhal, proveďte následující kroky:
  1. Kontrola profilu serveru NetWorker daemon.raw pro případná hlášení o selhání, která se zobrazí během spouštění. Na serveru je /nsr_share/nsr/daemon.raw se nachází v cestě ke sdílenému úložišti. Klientský démon fyzických uzlů se nachází v adresáři /nsr.NetWorker.local/logs/daemon.raw. Viz článek společnosti Dell NetWorker: Jak používat protokol nsr_render_log
  2. Pokud výchozí protokolování nestačí, povolte ladění pomocí následujících příkazů:
    1. Pokuste se restartovat zdroj "Server": 
pcs resource cleanup nws
  1. Pomocí příkazu dbgcommand Chcete-li povolit ladění na nsrd proces:
dbgcommand -n nsrd Debug=#
Nastavte úroveň ladění pomocí čísel 1 až 9. Sledujte daemon.raw pro všechny další zprávy, které mohou směřovat k problému.
  1. Zkontrolujte /var/log/pcsd/pcsd.log pro případné chyby.
  2. Zkontrolujte /var/log/pacemaker/pacemaker.log pro případné chyby.
  3. Zkontrolujte /var/log/messages souboru pro případné chyby.
POZNÁMKA: Při kontrole pcsd, kardiostimulátor a protokoly zpráv vyhledají zprávy, které byly zaznamenány během stejných časových razítek, kdy se služba NetWorker pokusila spustit. Zkontrolujte, zda se v USA nevyskytují chyby nebo selhání, které se shodují se selháním při spuštění služby.

Selhání systému souborů: 

  1. Projděte si zdroje informací o pacemakeru:
pcs resource
  1. Zkontrolujte konfiguraci prostředku pacemakeru pro prostředek systému souborů:
pcs resource fs
Příklad:
 
Poznamenejte si cestu k zařízení, cestu k adresáři a fstype.
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started lnx-node1.amer.lan
    * ip        (ocf::heartbeat:IPaddr):         Started lnx-node1.amer.lan
    * nws       (ocf::EMC_NetWorker:Server):     Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
  Attributes: fs-instance_attributes
    device=/dev/sdb1
    directory=/nsr_share
    fstype=xfs
  Operations:
    monitor: fs-monitor-interval-20
      interval=20
      timeout=300
    start: fs-start-interval-0s
      interval=0s
      timeout=60s
    stop: fs-stop-interval-0s
      interval=0s
      timeout=60s
  1. Ověřte, zda je zařízení připojeno k modulu FS:
df -h

Příklad:

root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1                                     94G  1.5G   92G   2% /nsr_share
  1. Zkontrolujte, zda je přípojný bod správně nakonfigurován; Přiřazení zařízení k cestě:
lsblk

Příklad:

root@lnx-node1:~# lsblk
NAME          MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda             8:0    0   40G  0 disk
├─sda1          8:1    0  600M  0 part /boot/efi
├─sda2          8:2    0    1G  0 part /boot
└─sda3          8:3    0 38.4G  0 part
  ├─rhel-root 253:0    0 34.4G  0 lvm  /
  └─rhel-swap 253:1    0    4G  0 lvm  [SWAP]
sdb             8:16   0  100G  0 disk
└─sdb1          8:17   0 93.1G  0 part /nsr_share
sr0            11:0    1 1024M  0 rom
  1. Ověřte, zda je systém souborů používaný zařízením správný:
blkid
Příklad:
root@lnx-node1:~# blkid 
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs" 
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064" 
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162" 
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040" 
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3" 
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
Pokud se nedaří spustit zdroj fs (systém souborů). To svědčí o problému mimo NetWorker. Správce systému by měl zkontrolovat konfiguraci systému souborů clusteru a potvrdit, že nedochází k žádným problémům se sdíleným úložištěm používaným kardiostimulátorem. Zkontrolujte další systémové protokoly týkající se všech selhání systému nebo jeho zařízení: 
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

Selhání zařízení IPaddr:

  1. Projděte si zdroje informací o pacemakeru:
pcs resource
  1. Zkontrolujte konfiguraci prostředku pacemakeru pro prostředek systému souborů:
pcs resource config ip
Příklad:
 
Poznamenejte si IP adresu a kartu síťového rozhraní (NIC).
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
  Attributes: ip-instance_attributes
    cidr_netmask=24
    ip=192.1xx.9.1x0
    nic=ens192
  Operations:
    monitor: ip-monitor-interval-15
      interval=15
      timeout=120
    start: ip-start-interval-0s
      interval=0s
      timeout=20s stop:
    ip-stop-interval-0s
      interval=0s
      timeout=20s
  1. Ověřte, zda je v systému k dispozici síťová karta:
ifconfig -a
Příklad: 
root@lnx-node1:~# ifconfig -a 
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
        inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
        inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
        ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
        RX packets 953865 bytes 349705527 (333.5 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0
        TX packets 1190983 bytes 179749786 (171.4 MiB)
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0 
        inet6 ::1 prefixlen 128 scopeid 0x10<host>
        loop txqueuelen 1000 (Local Loopback)
        RX packets 129798 bytes 13274289 (12.6 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0 
        TX packets 129798 bytes 13274289 (12.6 MiB) 
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
IP adresa zobrazená s ifconfig Odpovídá názvu fyzického uzlu; Clusterovaná IP adresa je však dosažitelná prostřednictvím této síťové karty, když je uzel aktivní. Ujistěte se, že jsou oba uzly nakonfigurovány tak, aby používaly stejné názvy síťových adaptérů.
  1. Přeloží se IP adresa na správný (logický) název hostitele používaný serverem NetWorker?
nslookup ip 

nslookup logical_name_FQDN 

nslookup logical_name_short
Příklad:
root@lnx-node1:~# nslookup 192.1xx.9.1x0 
110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. 

root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0 

root@lnx-node1:~# nslookup lnx-nwcluster 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0

Doporučuje se také provést stejný postup s IP adresou, plně kvalifikovaným názvem domény a krátkým názvem fyzického uzlu. Viz článek společnosti Dell NetWorker: Vzorové postupy při odstraňování problémů s překladem názvů.

  1. Můžete se s IP adresou clusteru spojit pomocí ping?
ping -c 4 ip
Příklad:
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 
PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 
64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms 

--- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 
4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
Pokud se nedaří spustit prostředek IP (IPaddr). To svědčí o problému mimo NetWorker. Správce systému a správce sítě clusteru by měli být zapojeni, aby zkontrolovali konfiguraci sítě clusteru a potvrdili, že nedošlo k žádným problémům. Zkontrolujte další systémové protokoly týkající se všech selhání systému nebo jeho zařízení:
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

Další příkazy PCS:

Operace Příkaz
Kardiostimulátor nebo pcs version:
pcs --version
Přehled kardiostimulátoru
pcs status
Přehled prostředků Pacemakeru
pcs resource
Určení vlastnictví cesty v clusteru.
lcmap
Povolit (spustit) prostředek.
pcs resource enable resource_name
Spustit pcs prostředek s laděním.
pcs resource debug-start resource_name 
Kontrola nastavení konfigurace prostředků počítačů
pcs resource config resource_name
Zakázat (zastavit) zdroj:
pcs resource disable resource_name  
Restartování prostředku selhalo.
pcs resource cleanup resource_name
Zastavte kardiostimulátor na uzlu.
pcs stop cluster [--force]
Spuštění kardiostimulátoru
pcs cluster start [--all]
Přepněte uzel do pohotovostního režimu.
pcs node standby node_name
Přepněte uzel z pohotovostního režimu. 
pcs node unstandby node_name

Důležité protokoly a soubory:

Cesta Účel Doplňkové příkazy
/var/log/messages Obsahuje globální systémové zprávy týkající se systémových prostředků a služeb.
grep 'pacemaker.*\(error\|warning\)' /var/log/messages
/var/log/pacemaker/pacemaker.log  Výchozí protokolování informací o kardiostimulátoru pro prostředky a funkce kardiostimulátoru. Není k dispozici
/var/log/pcsd/pcsd.log Výchozí služba/démon kardiostimulátoru (pcsd) protokol.  Není k dispozici
/var/log/cluster/corosync.log Výchozí protokol komunikace uzlu kardiostimulátoru.  Není k dispozici
/usr/sbin/nw_hae.log NetWorker (nws) protokol spuštění zdroje, jak je definováno v /usr/lib/ocf/resource.d/EMC_NetWorker/Server Není k dispozici
/usr/lib/ocf/resource.d/EMC_NetWorker/Server  Konfigurační soubor kardiostimulátoru NetWorker. To je operace, které jsou prováděny/spravovány počítači. Není k dispozici

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000218281
Article Type: How To
Last Modified: 22 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.