NetWorker: Felsökningsmanual för problem med Red Hat Cluster-tjänsten

Summary: Den här artikeln innehåller en översikt över hur du hanterar NetWorker-tjänstens startproblem för NetWorker-servrar som distribueras på Red Hat pacemaker-kluster (pcs). Den här artikeln är lämplig för NetWorker-säkerhetskopieringsadministratörer och NetWorker-support för att underlätta felsökning av dessa problem. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

NetWorker-servrar kan driftsättas i en klusterredundanskonfiguration på Red Hat-noder med pacemaker (pcs) tjänster. NetWorker är installerat på flera noder. Serverdatabaserna finns på delad lagring och skickas mellan noder baserat på den aktiva noden i pacemakerkonfigurationen. NetWorker-servern använder ett delat klusternamn och en delad IP-adress, vilket säkerställer konsekvent namngivning och adressering oavsett värdnod. Mer information om hur du konfigurerar NetWorker i ett kluster finns i NetWorker-klusterintegreringsmanualen. Den här manualen finns på produktsidan för Dells support

Klustertopologi:

I den här artikeln används ett exempelkluster med följande konfiguration:
 
NetWorker-klustertopologi

Värdnamn
IP-adress
Funktion
lnx-node1.amer.lan
192.168.9.108
Fysisk nod 1
lnx-node2.amer.lan
192.168.9.109
Fysisk nod 2
lnx-nwcluster.amer.lan
192.168.9.110
Logiskt namn som används av NetWorker


Filsystemet på noderna hanterar NetWorker med hjälp av symboliska länkar.

Aktiv nod:

En aktiv nod där NetWorker-servern startas länkar symboliskt /nsr Till den delade lagringsplatsen:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     14 Oct  5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x.  11 root root    116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x.   3 root root     17 Aug 31 17:23 nsr_share

Passiv nod:

En "passiv" nod länkar symboliskt /nsr till /nsr.NetWorker.local:
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     20 Oct  3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x.  11 root root    116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x.   2 root root      6 Aug 31 17:18 nsr_share

När en nod är i passivt tillstånd nsrexecd (NetWorker-klient) körs med /nsr.NetWorker.local. Varje fysisk nod har en egen klientresurs som använder den fysiska nodens DNS-matchbara namn och IP-adress (Domain Name System). NetWorker-servern körs endast med delad lagring (/nsr_share) och använder den delade IP-adressen och värdnamnet. Detta kan endast vara aktivt på en nod i taget. 

Följande pacemaker (pcs) används för att få en översikt över pacemakerns konfiguration och status:

  • Klusterkonfigurationen:

pcs status
Exempel:
root@lnx-node1:~# pcs status 
Cluster name: rhelclus 
Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) 
Cluster Summary: 
  * Stack: corosync 
  * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum 
  * Last updated: Thu Oct 5 10:59:20 2023 
  * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan 
  * 2 nodes configured 
  * 3 resource instances configured 

Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan 
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan 
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled
Med hjälp av ovanstående utdata kan vi avgöra hur många noder som finns i klustret och om några är offline eller i vänteläge. Utdata visar också vilken nod som är värd för det delade filsystemet (fs), IP-adress för klusterresurs (ip) och NetWorker-tjänsterna (nws). De resursnamn som används här är de standardvärden som används i NetWorker-guiden för klusterintegrering. Det är dock möjligt att olika namn används. Om du använder olika namn antecknar du resursnamnen och ersätter efter behov när du följer anvisningarna i den här artikeln.
  • Konfiguration av pacemakerresurs:
pcs resource config

Exempel:

root@lnx-node1:~# pcs resource config 
Group: NW_group 
  Resource: fs (class=ocf provider=heartbeat type=Filesystem)
    Attributes: fs-instance_attributes 
      device=/dev/sdb1 
      directory=/nsr_share 
      fstype=xfs 
    Operations: 
      monitor: fs-monitor-interval-20 
        interval=20 
        timeout=300 
      start: fs-start-interval-0s 
        interval=0s 
        timeout=60s 
      stop: fs-stop-interval-0s interval=0s timeout=60s 
  Resource: ip (class=ocf provider=heartbeat type=IPaddr) 
    Attributes: ip-instance_attributes 
      cidr_netmask=24 
      ip=192.1xx.9.1x0 
      nic=ens192 
    Operations: 
      monitor: ip-monitor-interval-15 
        interval=15 
        timeout=120 
      start: ip-start-interval-0s 
        interval=0s 
        timeout=20s 
      stop: ip-stop-interval-0s 
        interval=0s 
        timeout=20s 
  Resource: nws (class=ocf provider=EMC_NetWorker type=Server) 
    Meta Attributes: nws-meta_attributes 
      is-managed=true 
    Operations: 
      meta-data: nws-meta-data-interval-0 
        interval=0 
        timeout=10 
      migrate_from: nws-migrate_from-interval-0 
        interval=0 
        timeout=120
      migrate_to: nws-migrate_to-interval-0 
        interval=0 
        timeout=60 
      monitor: nws-monitor-interval-100 
        interval=100 
        timeout=1200 
      start: nws-start-interval-0 
        interval=0 
        timeout=600 
      stop: nws-stop-interval-0 
        interval=0 
        timeout=600 
      validate-all: nws-validate-all-interval-0 
        interval=0 
        timeout=10

 Ovanstående kommando beskriver varje pcs Konfiguration av resurser. Viktiga saker att notera under den första översikten:

  • FS-resurs "device=": Det här är den enhet som används som monteringspunkt för den delade lagringen i nodens filsystem. Den här enheten måste vara samma på alla noder. Detta diskuteras senare i denna KB.
  • FS-resurs "directory=": Det här är den katalog som används av den delade NetWorker-lagringen. Katalogen ska associeras som monteringspunkt för fältet "device=". Detta diskuteras senare i denna KB.
  • IP-resurs "ip=": Det här är den IP-adress som är kopplad till det logiska (delade) värdnamnet som används av NetWorker-servern. Den här IP-adressen finns på den aktiva noden.
  • Pacemakersynlighet för den delade adressen och lagringen:
lcmap

Exempel:

root@lnx-node1:~# lcmap
type: NSR_CLU_TYPE;
clu_type: NSR_LC_TYPE;
interface version: 1.0;

type: NSR_CLU_VIRTHOST;
hostname: 192.168.9.110;
local: TRUE;
owned paths: /nsr_share;

clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
Obs! Värdnamnet ska returnera IP-adressen som matchats från pcs resource config "ip="-fältet. De ägda sökvägarna ska matcha pcs resource config "directory=" fältet. I vissa fall, när ett startproblem observeras, kan lcmap returnerar inte fälten värdnamn, lokala eller ägda sökvägar. Detta tyder på ett problem.

Initial diagnos:

Om det inte går att starta NetWorker-tjänsterna kontrollerar du pcs Resursstatus för att se vilken resurs som misslyckas:

pcs status
Exempel: 
root@lnx-node1:~# pcs status 
... 
... 
Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs    (ocf::heartbeat:Filesystem):   Started lnx-node1.amer.lan 
    * ip    (ocf::heartbeat:IPaddr):       Started lnx-node1.amer.lan 
    * nws   (ocf::EMC_NetWorker:Server):   Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

 Om ett fel observeras returneras ett allmänt fel. De misslyckade resurserna visas som FAILED. 

  • FS (filsystem): Om filsystemet är i ett felaktigt tillstånd, se avsnittet nedan om filsystemfel.
  • IP (IPaddr): Om IPaddr är i ett misslyckat tillstånd, se avsnittet nedan om IPaddr-fel.
  • NWS (server): Om NetWorker-servern är i ett felaktigt tillstånd gör du följande:
  1. Granska NetWorker-serverns daemon.raw för eventuella felmeddelanden som visas under start. Serverns /nsr_share/nsr/daemon.raw finns i sökvägen för delad lagring. Klientdaemonen för fysiska noder finns i /nsr.NetWorker.local/logs/daemon.raw. Läs Dell-artikeln NetWorker: Så här använder du nsr_render_log
  2. Om standardloggning inte är tillräcklig aktiverar du felsökning på följande sätt:
    1. Försök att starta om serverresursen: 
pcs resource cleanup nws
  1. Använd tangenten dbgcommand Om du vill aktivera felsökning på nsrd process:
dbgcommand -n nsrd Debug=#
Ange en felsökningsnivå med siffrorna 1 till 9. Övervaka daemon.raw för eventuella ytterligare meddelanden som kan leda till ett problem.
  1. Granska /var/log/pcsd/pcsd.log för eventuella fel.
  2. Granska /var/log/pacemaker/pacemaker.log för eventuella fel.
  3. Granska /var/log/messages filen för eventuella fel.
Obs! När man granskar pcsd, pacemaker och meddelandeloggar söker efter meddelanden som loggades under samma tidsstämplar som NetWorker-tjänsterna försökte starta. Granska om det finns fel eller fel som sammanfaller med tjänstens startfel.

Fel i filsystemet: 

  1. Granska pacemakerresurserna:
pcs resource
  1. Granska pacemakerresurskonfigurationen för filsystemresursen:
pcs resource fs
Exempel:
 
Anteckna enhetssökvägen, katalogsökvägen och fstype.
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started lnx-node1.amer.lan
    * ip        (ocf::heartbeat:IPaddr):         Started lnx-node1.amer.lan
    * nws       (ocf::EMC_NetWorker:Server):     Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
  Attributes: fs-instance_attributes
    device=/dev/sdb1
    directory=/nsr_share
    fstype=xfs
  Operations:
    monitor: fs-monitor-interval-20
      interval=20
      timeout=300
    start: fs-start-interval-0s
      interval=0s
      timeout=60s
    stop: fs-stop-interval-0s
      interval=0s
      timeout=60s
  1. Kontrollera om enheten är monterad på FS:
df -h

Exempel:

root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1                                     94G  1.5G   92G   2% /nsr_share
  1. Bekräfta om monteringspunkten är korrekt konfigurerad; Associera enheten med sökvägen:
lsblk

Exempel:

root@lnx-node1:~# lsblk
NAME          MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda             8:0    0   40G  0 disk
├─sda1          8:1    0  600M  0 part /boot/efi
├─sda2          8:2    0    1G  0 part /boot
└─sda3          8:3    0 38.4G  0 part
  ├─rhel-root 253:0    0 34.4G  0 lvm  /
  └─rhel-swap 253:1    0    4G  0 lvm  [SWAP]
sdb             8:16   0  100G  0 disk
└─sdb1          8:17   0 93.1G  0 part /nsr_share
sr0            11:0    1 1024M  0 rom
  1. Bekräfta att filsystemet som används av enheten är korrekt:
blkid
Exempel:
root@lnx-node1:~# blkid 
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs" 
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064" 
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162" 
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040" 
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3" 
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
Om fs-resursen (filsystem) inte startar. Detta tyder på ett problem utanför NetWorker. Systemadministratören bör granska klustrets filsystemkonfiguration och bekräfta att det inte finns några problem med den delade lagring som används av pacemakern. Granska ytterligare systemloggar angående eventuella fel på systemet eller dess enheter: 
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

IPaddr-fel:

  1. Granska pacemakerresurserna:
pcs resource
  1. Granska pacemakerresurskonfigurationen för filsystemresursen:
pcs resource config ip
Exempel:
 
Anteckna IP-adressen och nätverkskortet (NIC).
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
  Attributes: ip-instance_attributes
    cidr_netmask=24
    ip=192.1xx.9.1x0
    nic=ens192
  Operations:
    monitor: ip-monitor-interval-15
      interval=15
      timeout=120
    start: ip-start-interval-0s
      interval=0s
      timeout=20s stop:
    ip-stop-interval-0s
      interval=0s
      timeout=20s
  1. Kontrollera om nätverkskortet är tillgängligt i systemet:
ifconfig -a
Exempel: 
root@lnx-node1:~# ifconfig -a 
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
        inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
        inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
        ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
        RX packets 953865 bytes 349705527 (333.5 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0
        TX packets 1190983 bytes 179749786 (171.4 MiB)
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0 
        inet6 ::1 prefixlen 128 scopeid 0x10<host>
        loop txqueuelen 1000 (Local Loopback)
        RX packets 129798 bytes 13274289 (12.6 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0 
        TX packets 129798 bytes 13274289 (12.6 MiB) 
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
IP-adressen som visas med ifconfig matchar det fysiska nodnamnet; Den klustrade IP-adressen kan dock nås via det här nätverkskortet när noden är aktiv. Kontrollera att båda noderna är konfigurerade för att använda samma NIC-namn.
  1. Matchar IP-adressen rätt (logiskt) värdnamn som används av NetWorker-servern?
nslookup ip 

nslookup logical_name_FQDN 

nslookup logical_name_short
Exempel:
root@lnx-node1:~# nslookup 192.1xx.9.1x0 
110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. 

root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0 

root@lnx-node1:~# nslookup lnx-nwcluster 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0

Vi rekommenderar också att du utför samma steg mot den fysiska nodens IP-adress, FQDN och kortnamn. Läs Dell-artikeln NetWorker: Bästa praxis för felsökning av namnmatchning.

  1. Kan du nå klustrets IP-adress med hjälp av ping?
ping -c 4 ip
Exempel:
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 
PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 
64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms 

--- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 
4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
Om IP-resursen (IPaddr) inte startar. Detta tyder på ett problem utanför NetWorker. Klustrets systemadministratör och nätverksadministratör bör anlitas för att granska klustrets nätverkskonfiguration och bekräfta att inga problem har observerats. Granska ytterligare systemloggar angående eventuella fel på systemet eller dess enheter:
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

Andra PCS-kommandon:

Operation Kommando
Pacemaker eller pcs version:
pcs --version
Pacemaker översikt
pcs status
Översikt över pacemakerresurs
pcs resource
Fastställa ägarskap för sökväg i ett kluster.
lcmap
Aktivera (start) resurs.
pcs resource enable resource_name
Start pcs resurs med felsökning.
pcs resource debug-start resource_name 
Granska datorns resurskonfigurationsinställningar
pcs resource config resource_name
Inaktivera (stoppa) resursen:
pcs resource disable resource_name  
Starta om den misslyckade resursen.
pcs resource cleanup resource_name
Stoppa pacemakern på noden.
pcs stop cluster [--force]
Starta pacemakern
pcs cluster start [--all]
Sätt noden i vänteläge.
pcs node standby node_name
Ta bort noden från vänteläget. 
pcs node unstandby node_name

Viktiga loggar och filer:

Stig Syfte Kompletterande kommandon
/var/log/messages Innehåller globala systemmeddelanden om systemresurser och -tjänster.
grep 'pacemaker.*\(error\|warning\)' /var/log/messages
/var/log/pacemaker/pacemaker.log  Standardloggning av pacemakerinformation för pacemakerresurser och -funktioner. Ej tillämpligt
/var/log/pcsd/pcsd.log Standardpacemakertjänst/daemon (pcsd) logg.  Ej tillämpligt
/var/log/cluster/corosync.log Standardkommunikationslogg för pacemakernod.  Ej tillämpligt
/usr/sbin/nw_hae.log NetWorker (nws) Resursens startlogg enligt definitionen i /usr/lib/ocf/resource.d/EMC_NetWorker/Server Ej tillämpligt
/usr/lib/ocf/resource.d/EMC_NetWorker/Server  NetWorker-pacemakerkonfigurationsfil. Detta är vilka åtgärder som utförs/hanteras av datorer. Ej tillämpligt

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000218281
Article Type: How To
Last Modified: 22 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.