NetWorker: Průvodce odstraňováním problémů se službou Red Hat Cluster Service
Summary: Tento článek poskytuje přehled, jak přistupovat k problémům se spuštěním služby NetWorker u serverů NetWorker nasazených v clusterech Red Hat Pacemaker (pcs). Tento článek je vhodný pro správce zálohování NetWorker a podporu NetWorker, aby vám pomohl s řešením těchto problémů. ...
Instructions
Servery NetWorker lze nasadit v konfiguraci převzetí služeb při selhání clusteru na uzlech Red Hat pomocí kardiostimulátoru (pcs) služby. Nástroj NetWorker je nainstalován na více uzlech. Databáze serveru jsou ve sdíleném úložišti a předávají se mezi uzly na základě aktivního uzlu v konfiguraci pacemakeru. Server NetWorker používá sdílený název clusteru a IP adresu, což zajišťuje konzistentní pojmenování a adresování bez ohledu na hostitelský uzel. Podrobnosti o nastavení nástroje NetWorker v clusteru naleznete v průvodci integrací clusteru NetWorker. Tato příručka je k dispozici na stránce podpory společnosti Dell.
Topologie clusteru:
Tento článek používá ukázkový cluster s následující konfigurací:
Topologie clusteru NetWorker
|
Název hostitele
|
IP adresa
|
Funkce
|
|
lnx-node1.amer.lan
|
192.168.9.108
|
Fyzický uzel 1
|
|
lnx-node2.amer.lan
|
192.168.9.109
|
Fyzický uzel 2
|
|
lnx-nwcluster.amer.lan
|
192.168.9.110
|
Logický název používaný nástrojem NetWorker
|
Systém souborů na uzlech spravuje nástroj NetWorker pomocí symbolických odkazů.
Aktivní uzel:
/nsr Do umístění sdíleného úložiště:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx. 1 root root 14 Oct 5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x. 11 root root 116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x. 3 root root 17 Aug 31 17:23 nsr_share
Pasivní uzel:
/nsr na /nsr.NetWorker.local:
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx. 1 root root 20 Oct 3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x. 11 root root 116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x. 2 root root 6 Aug 31 17:18 nsr_share
Když je uzel v pasivním stavu, nsrexecd (klient NetWorker) je software spuštěn pomocí /nsr.NetWorker.local. Každý fyzický uzel má svůj vlastní prostředek klienta, který používá přeložitelný název DNS (Domain Name System) a IP adresu fyzického uzlu. Server NetWorker lze spustit pouze pomocí sdíleného úložiště (/nsr_share) a používá sdílenou IP adresu a název hostitele. To může být v jednom okamžiku aktivní pouze na jednom uzlu.
Následující kardiostimulátor (pcs) slouží k získání přehledu o konfiguraci a stavu kardiostimulátoru:
-
Konfigurace clusteru:
pcs status
root@lnx-node1:~# pcs status Cluster name: rhelclus Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) Cluster Summary: * Stack: corosync * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum * Last updated: Thu Oct 5 10:59:20 2023 * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan * 2 nodes configured * 3 resource instances configured Node List: * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] Full List of Resources: * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan Daemon Status: corosync: active/enabled pacemaker: active/enabled pcsd: active/enabled
fs), IP adresa prostředku clusteru (ip) a služby NetWorker (nws). Názvy zde použitých prostředků jsou výchozí hodnoty použité v Příručce integrace clusteru NetWorker. Je však možné, že se používají různé názvy. Pokud používáte různé názvy, poznamenejte si názvy prostředků a podle potřeby je nahraďte podle pokynů v tomto článku.
- Konfigurace prostředků Pacemakeru:
pcs resource config
Příklad:
root@lnx-node1:~# pcs resource config Group: NW_group Resource: fs (class=ocf provider=heartbeat type=Filesystem) Attributes: fs-instance_attributes device=/dev/sdb1 directory=/nsr_share fstype=xfs Operations: monitor: fs-monitor-interval-20 interval=20 timeout=300 start: fs-start-interval-0s interval=0s timeout=60s stop: fs-stop-interval-0s interval=0s timeout=60s Resource: ip (class=ocf provider=heartbeat type=IPaddr) Attributes: ip-instance_attributes cidr_netmask=24 ip=192.1xx.9.1x0 nic=ens192 Operations: monitor: ip-monitor-interval-15 interval=15 timeout=120 start: ip-start-interval-0s interval=0s timeout=20s stop: ip-stop-interval-0s interval=0s timeout=20s Resource: nws (class=ocf provider=EMC_NetWorker type=Server) Meta Attributes: nws-meta_attributes is-managed=true Operations: meta-data: nws-meta-data-interval-0 interval=0 timeout=10 migrate_from: nws-migrate_from-interval-0 interval=0 timeout=120 migrate_to: nws-migrate_to-interval-0 interval=0 timeout=60 monitor: nws-monitor-interval-100 interval=100 timeout=1200 start: nws-start-interval-0 interval=0 timeout=600 stop: nws-stop-interval-0 interval=0 timeout=600 validate-all: nws-validate-all-interval-0 interval=0 timeout=10
Výše uvedený příkaz obsahuje podrobnosti o každém z nich. pcs konfigurace zdrojů. Důležité věci, které je třeba si uvědomit během úvodního přehledu:
- Zdroj FS "device=": Jedná se o zařízení, které slouží jako přípojný bod pro sdílené úložiště v systému souborů uzlu. Toto zařízení musí být na každém uzlu stejné. To je popsáno dále v tomto článku znalostní databáze.
- Zdroj FS "directory=": Toto je adresář, který používá sdílené úložiště NetWorker. Adresář by měl být přiřazen jako přípojný bod pro pole "device=". To je popsáno dále v tomto článku znalostní databáze.
- Zdroj IP "ip=": Jedná se o IP adresu přiřazenou k logickému (sdílenému) názvu hostitele používanému serverem NetWorker. Tato IP adresa je hostovaná na aktivním uzlu.
- Viditelnost sdílené adresy a úložiště kardiostimulátoru:
lcmap
Příklad:
root@lnx-node1:~# lcmap type: NSR_CLU_TYPE; clu_type: NSR_LC_TYPE; interface version: 1.0; type: NSR_CLU_VIRTHOST; hostname: 192.168.9.110; local: TRUE; owned paths: /nsr_share; clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
pcs resource config "ip=" pole. Vlastněné cesty by měly odpovídat pcs resource config "directory=" pole. V některých případech, když je pozorován problém se spuštěním, lcmap Příkaz nevrací pole HostName, Local nebo Owned Paths; To značí problém.
Počáteční diagnóza:
Pokud se služby NetWorker nespustí, zkontrolujte pcs Stav prostředku a zjištění, který zdroj selhává:
pcs status
root@lnx-node1:~# pcs status ... ... Node List: * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] Full List of Resources: * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan Daemon Status: corosync: active/enabled pacemaker: active/enabled pcsd: active/enabled
Pokud je pozorována chyba, zobrazí se obecná chybová zpráva. Prostředky, které selhaly, se zobrazují jako FAILED.
- FS (systém souborů): Pokud je systém souborů ve stavu selhání, přečtěte si níže uvedenou část o selháních systému souborů.
- IP adresa (IPaddr): Pokud je adaptér IPaddr ve stavu selhání, přečtěte si níže uvedenou část o selháních zařízení IPaddr.
- NWS (server): Pokud server NetWorker selhal, proveďte následující kroky:
- Kontrola profilu serveru NetWorker
daemon.rawpro případná hlášení o selhání, která se zobrazí během spouštění. Na serveru je/nsr_share/nsr/daemon.rawse nachází v cestě ke sdílenému úložišti. Klientský démon fyzických uzlů se nachází v adresáři/nsr.NetWorker.local/logs/daemon.raw. Viz článek společnosti Dell NetWorker: Jak používat protokol nsr_render_log - Pokud výchozí protokolování nestačí, povolte ladění pomocí následujících příkazů:
- Pokuste se restartovat zdroj "Server":
pcs resource cleanup nws
- Pomocí příkazu
dbgcommandChcete-li povolit ladění nansrdproces:
dbgcommand -n nsrd Debug=#
daemon.raw pro všechny další zprávy, které mohou směřovat k problému.
- Zkontrolujte
/var/log/pcsd/pcsd.logpro případné chyby. - Zkontrolujte
/var/log/pacemaker/pacemaker.logpro případné chyby. - Zkontrolujte
/var/log/messagessouboru pro případné chyby.
pcsd, kardiostimulátor a protokoly zpráv vyhledají zprávy, které byly zaznamenány během stejných časových razítek, kdy se služba NetWorker pokusila spustit. Zkontrolujte, zda se v USA nevyskytují chyby nebo selhání, které se shodují se selháním při spuštění služby.
Selhání systému souborů:
- Projděte si zdroje informací o pacemakeru:
pcs resource
- Zkontrolujte konfiguraci prostředku pacemakeru pro prostředek systému souborů:
pcs resource fs
root@lnx-node1:~# pcs resource
* Resource Group: NW_group:
* fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
* ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
* nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
Attributes: fs-instance_attributes
device=/dev/sdb1
directory=/nsr_share
fstype=xfs
Operations:
monitor: fs-monitor-interval-20
interval=20
timeout=300
start: fs-start-interval-0s
interval=0s
timeout=60s
stop: fs-stop-interval-0s
interval=0s
timeout=60s
- Ověřte, zda je zařízení připojeno k modulu FS:
df -h
Příklad:
root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1 94G 1.5G 92G 2% /nsr_share
- Zkontrolujte, zda je přípojný bod správně nakonfigurován; Přiřazení zařízení k cestě:
lsblk
Příklad:
root@lnx-node1:~# lsblk
NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
sda 8:0 0 40G 0 disk
├─sda1 8:1 0 600M 0 part /boot/efi
├─sda2 8:2 0 1G 0 part /boot
└─sda3 8:3 0 38.4G 0 part
├─rhel-root 253:0 0 34.4G 0 lvm /
└─rhel-swap 253:1 0 4G 0 lvm [SWAP]
sdb 8:16 0 100G 0 disk
└─sdb1 8:17 0 93.1G 0 part /nsr_share
sr0 11:0 1 1024M 0 rom
- Ověřte, zda je systém souborů používaný zařízením správný:
blkid
root@lnx-node1:~# blkid
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs"
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064"
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162"
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040"
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3"
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
/var/log/pcsd/pcsd.log/var/log/pacemaker/pacemaker.log/var/log/messages
Selhání zařízení IPaddr:
- Projděte si zdroje informací o pacemakeru:
pcs resource
- Zkontrolujte konfiguraci prostředku pacemakeru pro prostředek systému souborů:
pcs resource config ip
root@lnx-node1:~# pcs resource
* Resource Group: NW_group:
* fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
* ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
* nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
Attributes: ip-instance_attributes
cidr_netmask=24
ip=192.1xx.9.1x0
nic=ens192
Operations:
monitor: ip-monitor-interval-15
interval=15
timeout=120
start: ip-start-interval-0s
interval=0s
timeout=20s stop:
ip-stop-interval-0s
interval=0s
timeout=20s
- Ověřte, zda je v systému k dispozici síťová karta:
ifconfig -a
root@lnx-node1:~# ifconfig -a
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
RX packets 953865 bytes 349705527 (333.5 MiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 1190983 bytes 179749786 (171.4 MiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
inet 127.0.0.1 netmask 255.0.0.0
inet6 ::1 prefixlen 128 scopeid 0x10<host>
loop txqueuelen 1000 (Local Loopback)
RX packets 129798 bytes 13274289 (12.6 MiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 129798 bytes 13274289 (12.6 MiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
IP adresa zobrazená s ifconfig Odpovídá názvu fyzického uzlu; Clusterovaná IP adresa je však dosažitelná prostřednictvím této síťové karty, když je uzel aktivní. Ujistěte se, že jsou oba uzly nakonfigurovány tak, aby používaly stejné názvy síťových adaptérů.
- Přeloží se IP adresa na správný (logický) název hostitele používaný serverem NetWorker?
nslookup ip nslookup logical_name_FQDN nslookup logical_name_short
root@lnx-node1:~# nslookup 192.1xx.9.1x0 110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. Server: 192.1xx.9.1x0 Address: 192.1xx.9.100#53 Name: lnx-nwcluster.amer.lan Address: 192.1xx.9.1x0 root@lnx-node1:~# nslookup lnx-nwcluster Server: 192.1xx.9.1x0 Address: 192.1xx.9.100#53 Name: lnx-nwcluster.amer.lan Address: 192.1xx.9.1x0
Doporučuje se také provést stejný postup s IP adresou, plně kvalifikovaným názvem domény a krátkým názvem fyzického uzlu. Viz článek společnosti Dell NetWorker: Vzorové postupy při odstraňování problémů s překladem názvů.
- Můžete se s IP adresou clusteru spojit pomocí
ping?
ping -c 4 ip
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms --- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
/var/log/pcsd/pcsd.log/var/log/pacemaker/pacemaker.log/var/log/messages
Další příkazy PCS:
| Operace | Příkaz |
Kardiostimulátor nebo pcs version: |
|
| Přehled kardiostimulátoru |
|
| Přehled prostředků Pacemakeru |
|
| Určení vlastnictví cesty v clusteru. |
|
| Povolit (spustit) prostředek. |
|
Spustit pcs prostředek s laděním. |
|
| Kontrola nastavení konfigurace prostředků počítačů |
|
| Zakázat (zastavit) zdroj: |
|
| Restartování prostředku selhalo. |
|
| Zastavte kardiostimulátor na uzlu. |
|
| Spuštění kardiostimulátoru |
|
| Přepněte uzel do pohotovostního režimu. |
|
| Přepněte uzel z pohotovostního režimu. |
|
Důležité protokoly a soubory:
| Cesta | Účel | Doplňkové příkazy |
/var/log/messages |
Obsahuje globální systémové zprávy týkající se systémových prostředků a služeb. |
|
/var/log/pacemaker/pacemaker.log |
Výchozí protokolování informací o kardiostimulátoru pro prostředky a funkce kardiostimulátoru. | Není k dispozici |
/var/log/pcsd/pcsd.log |
Výchozí služba/démon kardiostimulátoru (pcsd) protokol. |
Není k dispozici |
/var/log/cluster/corosync.log |
Výchozí protokol komunikace uzlu kardiostimulátoru. | Není k dispozici |
/usr/sbin/nw_hae.log |
NetWorker (nws) protokol spuštění zdroje, jak je definováno v /usr/lib/ocf/resource.d/EMC_NetWorker/Server |
Není k dispozici |
/usr/lib/ocf/resource.d/EMC_NetWorker/Server |
Konfigurační soubor kardiostimulátoru NetWorker. To je operace, které jsou prováděny/spravovány počítači. | Není k dispozici |