NetWorker: Przewodnik rozwiązywania problemów dotyczących usługi klastrowania Red Hat

Summary: Ten artykuł zawiera omówienie sposobu podejścia do problemów z uruchamianiem usługi NetWorker dla serwerów NetWorker wdrożonych w klastrach Red Hat pacemaker (pcs). Ten artykuł jest odpowiedni dla administratorów kopii zapasowych NetWorker i pomocy technicznej NetWorker, aby pomóc w rozwiązywaniu tych problemów. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Serwery NetWorker można wdrażać w konfiguracji trybu failover klastra w węzłach Red Hat przy użyciu programu Pacemaker (pcs) usług. Rozwiązanie NetWorker jest zainstalowane na wielu węzłach. Bazy danych serwera znajdują się w magazynie udostępnionym, przekazywanym między węzłami na podstawie aktywnego węzła w konfiguracji pacemakera. Serwer NetWorker używa współdzielonej nazwy klastra i adresu IP, zapewniając spójne nazewnictwo i adresowanie niezależnie od węzła hostingowego. Szczegółowe informacje na temat konfigurowania NetWorker w klastrze można znaleźć w Podręczniku integracji klastra NetWorker. Ten przewodnik jest dostępny na stronie produktu Dell Support

Topologia klastra:

W tym artykule użyto przykładowego klastra z następującą konfiguracją:
 
Topologia klastra NetWorker

Nazwa hosta
Adres IP
Funkcja
lnx-node1.amer.lan
192.168.9.108
Węzeł fizyczny 1
lnx-node2.amer.lan
192.168.9.109
Węzeł fizyczny 2
lnx-nwcluster.amer.lan
192.168.9.110
Nazwa logiczna używana przez NetWorker


System plików w węzłach zarządza NetWorker przy użyciu dowiązań symbolicznych.

Aktywny węzeł:

Aktywny węzeł, w którym uruchamiany jest serwer NetWorker, łączy symbolicznie /nsr do lokalizacji pamięci udostępnionej:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     14 Oct  5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x.  11 root root    116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x.   3 root root     17 Aug 31 17:23 nsr_share

Węzeł pasywny:

Węzeł "pasywny" łączy symbolicznie /nsr na /nsr.NetWorker.local:
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     20 Oct  3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x.  11 root root    116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x.   2 root root      6 Aug 31 17:18 nsr_share

Gdy węzeł znajduje się w stanie pasywnym, nsrexecd (klient NetWorker) działa przy użyciu /nsr.NetWorker.local. Każdy węzeł fizyczny ma własny zasób klienta korzystający z rozpoznawalnej nazwy i adresu IP węzła fizycznego systemu nazw domen (DNS). Serwer NetWorker działa tylko przy użyciu pamięci udostępnionej (/nsr_share) i używa współdzielonego adresu IP i nazwy hosta. Ta funkcja może być aktywna tylko w jednym węźle naraz. 

Następujący rozrusznik serca (pcs) służą do zapoznania się z konfiguracją i stanem rozrusznika serca:

  • Konfiguracja klastra:

pcs status
Przykład:
root@lnx-node1:~# pcs status 
Cluster name: rhelclus 
Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) 
Cluster Summary: 
  * Stack: corosync 
  * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum 
  * Last updated: Thu Oct 5 10:59:20 2023 
  * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan 
  * 2 nodes configured 
  * 3 resource instances configured 

Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan 
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan 
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled
Na podstawie powyższych danych wyjściowych możemy określić, ile węzłów znajduje się w klastrze i czy któryś z nich jest w trybie offline lub w stanie gotowości. Dane wyjściowe pokazują również, który węzeł hostuje udostępniony system plików (fs), adres IP zasobu klastra (ip) oraz usług NetWorker (nws). Użyte tutaj nazwy zasobów są nazwami domyślnymi używanymi w Podręczniku integracji klastra NetWorker; Możliwe jest jednak, że używane są różne nazwy. Jeśli używasz innych nazw, zanotuj nazwy zasobów i zastąp je w razie potrzeby, postępując zgodnie z instrukcjami zawartymi w tym artykule.
  • Konfiguracja zasobów programu Pacemaker:
pcs resource config

Przykład:

root@lnx-node1:~# pcs resource config 
Group: NW_group 
  Resource: fs (class=ocf provider=heartbeat type=Filesystem)
    Attributes: fs-instance_attributes 
      device=/dev/sdb1 
      directory=/nsr_share 
      fstype=xfs 
    Operations: 
      monitor: fs-monitor-interval-20 
        interval=20 
        timeout=300 
      start: fs-start-interval-0s 
        interval=0s 
        timeout=60s 
      stop: fs-stop-interval-0s interval=0s timeout=60s 
  Resource: ip (class=ocf provider=heartbeat type=IPaddr) 
    Attributes: ip-instance_attributes 
      cidr_netmask=24 
      ip=192.1xx.9.1x0 
      nic=ens192 
    Operations: 
      monitor: ip-monitor-interval-15 
        interval=15 
        timeout=120 
      start: ip-start-interval-0s 
        interval=0s 
        timeout=20s 
      stop: ip-stop-interval-0s 
        interval=0s 
        timeout=20s 
  Resource: nws (class=ocf provider=EMC_NetWorker type=Server) 
    Meta Attributes: nws-meta_attributes 
      is-managed=true 
    Operations: 
      meta-data: nws-meta-data-interval-0 
        interval=0 
        timeout=10 
      migrate_from: nws-migrate_from-interval-0 
        interval=0 
        timeout=120
      migrate_to: nws-migrate_to-interval-0 
        interval=0 
        timeout=60 
      monitor: nws-monitor-interval-100 
        interval=100 
        timeout=1200 
      start: nws-start-interval-0 
        interval=0 
        timeout=600 
      stop: nws-stop-interval-0 
        interval=0 
        timeout=600 
      validate-all: nws-validate-all-interval-0 
        interval=0 
        timeout=10

 Powyższe polecenie zawiera szczegółowe informacje na temat każdego pcs Konfiguracja zasobów. Ważne rzeczy, na które należy zwrócić uwagę podczas wstępnego przeglądu:

  • Zasób FS "device=": Jest to urządzenie używane jako punkt montowania dla pamięci udostępnionej w systemie plików węzła. To urządzenie musi być takie samo w każdym węźle. Zostało to omówione w dalszej części tej bazy wiedzy.
  • Zasób FS "directory=": Jest to katalog używany przez współużytkowaną pamięć masową NetWorker. Katalog powinien być skojarzony jako punkt montowania dla pola "device=". Zostało to omówione w dalszej części tej bazy wiedzy.
  • Zasób IP "ip=": Jest to adres IP powiązany z logiczną (współużytkowaną) nazwą hosta używaną przez serwer NetWorker. Ten adres IP jest hostowany w aktywnym węźle.
  • Widoczność udostępnionego adresu i magazynu programu Pacemaker:
lcmap

Przykład:

root@lnx-node1:~# lcmap
type: NSR_CLU_TYPE;
clu_type: NSR_LC_TYPE;
interface version: 1.0;

type: NSR_CLU_VIRTHOST;
hostname: 192.168.9.110;
local: TRUE;
owned paths: /nsr_share;

clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
UWAGA: Nazwa hosta powinna zwrócić adres IP zgodny z pcs resource config "ip=". Posiadane ścieżki powinny być zgodne z parametrem pcs resource config "directory=". W niektórych przypadkach, gdy zaobserwowano problem z uruchamianiem, lcmap polecenie nie zwraca pól nazwy hosta, lokalnych ani własnych ścieżek; Wskazuje to na problem.

Wstępna diagnoza:

Jeśli uruchomienie usług NetWorker kończy się niepowodzeniem, sprawdź pcs Stan zasobu, aby zobaczyć, który zasób uległ awarii:

pcs status
Przykład: 
root@lnx-node1:~# pcs status 
... 
... 
Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs    (ocf::heartbeat:Filesystem):   Started lnx-node1.amer.lan 
    * ip    (ocf::heartbeat:IPaddr):       Started lnx-node1.amer.lan 
    * nws   (ocf::EMC_NetWorker:Server):   Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

 W przypadku zaobserwowania błędu zwracany jest ogólny błąd błędu. Zasoby, które zakończyły się niepowodzeniem, są wyświetlane jako NIEPOWODZENIE. 

  • FS (system plików): Jeśli system plików jest w stanie awarii, zapoznaj się z poniższą sekcją dotyczącą awarii systemu plików.
  • Adres IP (adres IPaddr): Jeśli adres IPaddr jest w stanie awarii, zapoznaj się z poniższą sekcją dotyczącą błędów protokołu IPaddr.
  • NWS (serwer): Jeśli serwer NetWorker jest w stanie awarii, wykonaj następujące czynności:
  1. Przejrzyj serwer NetWorker daemon.raw dla wszystkich komunikatów o błędach, które pojawiają się podczas uruchamiania. Serwer /nsr_share/nsr/daemon.raw znajduje się w ścieżce pamięci udostępnionej. Demon klienta węzłów fizycznych znajduje się w /nsr.NetWorker.local/logs/daemon.raw. Zapoznaj się z artykułem firmy Dell NetWorker: korzystanie z nsr_render_log
  2. Jeśli domyślne rejestrowanie nie jest wystarczające, włącz debugowanie w następujący sposób:
    1. Spróbuj ponownie uruchomić zasób "Server": 
pcs resource cleanup nws
  1. Użyj polecenia dbgcommand Aby włączyć debugowanie na nsrd proces:
dbgcommand -n nsrd Debug=#
Ustaw poziom debugowania, używając liczb od 1 do 9. Monitoruj daemon.raw dla wszelkich dodatkowych komunikatów, które mogą kierować do problemu.
  1. Zapoznaj się z /var/log/pcsd/pcsd.log za wszelkie błędy.
  2. Zapoznaj się z /var/log/pacemaker/pacemaker.log za wszelkie błędy.
  3. Zapoznaj się z /var/log/messages plik pod kątem błędów.
UWAGA: Przeglądając pcsd, pacemaker i dzienniki komunikatów wyszukują komunikaty, które zostały zarejestrowane w tych samych sygnaturach czasowych, w których usługi NetWorker próbowały się uruchomić. Sprawdź, czy nie występują jakiekolwiek błędy lub awarie, które zbiegają się z awarią uruchomienia usługi.

Awarie systemu plików: 

  1. Przejrzyj zasoby stymulatora:
pcs resource
  1. Przejrzyj konfigurację zasobu pacemaker dla zasobu systemu plików:
pcs resource fs
Przykład:
 
Zanotuj ścieżkę urządzenia, ścieżkę katalogu i fstype.
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started lnx-node1.amer.lan
    * ip        (ocf::heartbeat:IPaddr):         Started lnx-node1.amer.lan
    * nws       (ocf::EMC_NetWorker:Server):     Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
  Attributes: fs-instance_attributes
    device=/dev/sdb1
    directory=/nsr_share
    fstype=xfs
  Operations:
    monitor: fs-monitor-interval-20
      interval=20
      timeout=300
    start: fs-start-interval-0s
      interval=0s
      timeout=60s
    stop: fs-stop-interval-0s
      interval=0s
      timeout=60s
  1. Sprawdź, czy urządzenie jest zamontowane na FS:
df -h

Przykład:

root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1                                     94G  1.5G   92G   2% /nsr_share
  1. Potwierdź, czy punkt montowania jest skonfigurowany poprawnie; Kojarzenie urządzenia ze ścieżką:
lsblk

Przykład:

root@lnx-node1:~# lsblk
NAME          MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda             8:0    0   40G  0 disk
├─sda1          8:1    0  600M  0 part /boot/efi
├─sda2          8:2    0    1G  0 part /boot
└─sda3          8:3    0 38.4G  0 part
  ├─rhel-root 253:0    0 34.4G  0 lvm  /
  └─rhel-swap 253:1    0    4G  0 lvm  [SWAP]
sdb             8:16   0  100G  0 disk
└─sdb1          8:17   0 93.1G  0 part /nsr_share
sr0            11:0    1 1024M  0 rom
  1. Upewnij się, że system plików używany przez urządzenie jest poprawny:
blkid
Przykład:
root@lnx-node1:~# blkid 
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs" 
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064" 
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162" 
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040" 
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3" 
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
Jeśli nie można uruchomić zasobu fs (systemu plików). Wskazuje to na problem spoza NetWorker. Administrator systemu powinien przejrzeć konfigurację systemu plików klastra i potwierdzić brak problemów z magazynem udostępnionym używanym przez program Pacemaker. Przejrzyj dodatkowe dzienniki systemu dotyczące awarii systemu lub jego urządzeń: 
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

Awarie IPaddr:

  1. Przejrzyj zasoby stymulatora:
pcs resource
  1. Przejrzyj konfigurację zasobu pacemaker dla zasobu systemu plików:
pcs resource config ip
Przykład:
 
Zanotuj adres IP i kartę interfejsu sieciowego (NIC).
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
  Attributes: ip-instance_attributes
    cidr_netmask=24
    ip=192.1xx.9.1x0
    nic=ens192
  Operations:
    monitor: ip-monitor-interval-15
      interval=15
      timeout=120
    start: ip-start-interval-0s
      interval=0s
      timeout=20s stop:
    ip-stop-interval-0s
      interval=0s
      timeout=20s
  1. Sprawdź, czy karta sieciowa jest dostępna w systemie:
ifconfig -a
Przykład: 
root@lnx-node1:~# ifconfig -a 
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
        inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
        inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
        ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
        RX packets 953865 bytes 349705527 (333.5 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0
        TX packets 1190983 bytes 179749786 (171.4 MiB)
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0 
        inet6 ::1 prefixlen 128 scopeid 0x10<host>
        loop txqueuelen 1000 (Local Loopback)
        RX packets 129798 bytes 13274289 (12.6 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0 
        TX packets 129798 bytes 13274289 (12.6 MiB) 
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
Adres IP wyświetlany z ifconfig odpowiada nazwie węzła fizycznego; jednak klastrowany adres IP jest osiągalny za pośrednictwem tej karty sieciowej, gdy węzeł jest aktywny. Upewnij się, że oba węzły są skonfigurowane do używania tych samych nazw kart sieciowych.
  1. Czy adres IP jest rozpoznawany jako prawidłowa (logiczna) nazwa hosta używana przez serwer NetWorker?
nslookup ip 

nslookup logical_name_FQDN 

nslookup logical_name_short
Przykład:
root@lnx-node1:~# nslookup 192.1xx.9.1x0 
110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. 

root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0 

root@lnx-node1:~# nslookup lnx-nwcluster 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0

Zaleca się również wykonanie tych samych czynności dla adresu IP, nazwy FQDN i skróconej nazwy węzła fizycznego. Zapoznaj się z artykułem firmy Dell NetWorker: Najlepsze praktyki dotyczące rozwiązywania problemów z rozwiązywaniem problemów.

  1. Czy można uzyskać połączenie z adresem IP klastra za pomocą polecenia: ping?
ping -c 4 ip
Przykład:
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 
PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 
64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms 

--- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 
4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
Jeśli nie można uruchomić zasobu IP (IPaddr). Wskazuje to na problem spoza NetWorker. Administrator systemu klastra i administrator sieci powinni zostać zaangażowani w sprawdzenie konfiguracji sieci klastra i potwierdzenie, że nie zaobserwowano żadnych problemów. Przejrzyj dodatkowe dzienniki systemu dotyczące awarii systemu lub jego urządzeń:
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

Inne polecenia PCS:

Działanie Polecenie
Rozrusznik serca lub pcs version:
pcs --version
Omówienie rozrusznika serca
pcs status
Omówienie zasobów programu Pacemaker
pcs resource
Określenie własności ścieżki w klastrze.
lcmap
Włącz (uruchamiaj) zasób.
pcs resource enable resource_name
Start pcs zasób z debugowaniem.
pcs resource debug-start resource_name 
Przeglądanie ustawień konfiguracji zasobów komputerów
pcs resource config resource_name
Wyłącz (zatrzymaj) zasób:
pcs resource disable resource_name  
Uruchom ponownie zasób, który zakończył się niepowodzeniem.
pcs resource cleanup resource_name
Zatrzymaj rozrusznik serca w węźle.
pcs stop cluster [--force]
Uruchom rozrusznik serca
pcs cluster start [--all]
Przełącz węzeł w stan gotowości.
pcs node standby node_name
Wyprowadzanie węzła ze stanu gotowości. 
pcs node unstandby node_name

Ważne dzienniki i pliki:

Ścieżka Zastosowanie Polecenia uzupełniające
/var/log/messages Zawiera globalne komunikaty systemowe dotyczące zasobów systemowych i usług.
grep 'pacemaker.*\(error\|warning\)' /var/log/messages
/var/log/pacemaker/pacemaker.log  Domyślne rejestrowanie informacji o rozruszniku serca dla zasobów i funkcji pacemakera. Nie dotyczy
/var/log/pcsd/pcsd.log Domyślna usługa/demon pacemaker (pcsd) dziennik.  Nie dotyczy
/var/log/cluster/corosync.log Domyślny dziennik komunikacji węzła pacemaker.  Nie dotyczy
/usr/sbin/nw_hae.log NetWorker (nws) Dziennik startowy zasobów zdefiniowany w /usr/lib/ocf/resource.d/EMC_NetWorker/Server Nie dotyczy
/usr/lib/ocf/resource.d/EMC_NetWorker/Server  Plik konfiguracyjny rozrusznika serca NetWorker. Te operacje są wykonywane/zarządzane przez komputery. Nie dotyczy

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000218281
Article Type: How To
Last Modified: 22 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.