NetWorker: Red Hat Cluster Service 문제 해결 가이드

Summary: 이 문서에서는 Red Hat Pacemaker(PCS) 클러스터에 배포된 NetWorker 서버의 NetWorker 서비스 시작 문제에 접근하는 방법에 대한 개요를 제공합니다. 이 문서는 NetWorker 백업 관리자 및 NetWorker 지원에서 이러한 문제를 해결하는 데 유용합니다.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

NetWorker Server는 Pacemaker(pcs) 서비스. NetWorker가 여러 노드에 설치되어 있는 경우 서버 데이터베이스는 Pacemaker 구성의 활성 노드를 기반으로 노드 간에 전달되는 공유 스토리지에 있습니다. NetWorker Server는 공유 클러스터 이름 및 IP 주소를 사용하므로 호스팅 노드에 관계없이 일관된 이름 지정 및 주소 지정이 보장됩니다. 클러스터에서 NetWorker를 설정하는 방법에 대한 자세한 내용은 NetWorker 클러스터 통합 가이드를 참조하십시오. 이 가이드는 Dell 지원 제품 페이지에서 사용할 수 있습니다. 

클러스터 토폴로지:

이 문서에서는 다음과 같은 구성의 예제 클러스터를 사용합니다.
 
NetWorker 클러스터 토폴로지

호스트 이름
IP 주소
기능
lnx 노드 1.amer.lan
192.168.9.108
물리적 노드 1
lnx 노드 2.amer.lan
192.168.9.109
물리적 노드 2
lnx-nwcluster.amer.lan
192.168.9.110
NetWorker에서 사용하는 논리적 이름


노드의 파일 시스템은 심볼 링크를 사용하여 NetWorker를 관리합니다.

활성 노드:

NetWorker Server가 시작되는 액티브 노드는 기호적으로 연결됩니다 /nsr 공유 저장소 위치로:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     14 Oct  5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x.  11 root root    116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x.   3 root root     17 Aug 31 17:23 nsr_share

패시브 노드:

"패시브" 노드는 기호적으로 연결됩니다. /nsr 에서 /nsr.NetWorker.local:
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     20 Oct  3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x.  11 root root    116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x.   2 root root      6 Aug 31 17:18 nsr_share

노드가 수동 상태인 경우 nsrexecd (NetWorker Client) 소프트웨어가 /nsr.NetWorker.local명령을 수행할 수 있는 충분한 공간이 있어야 합니다. 각 물리적 노드에는 물리적 노드의 DNS(Domain Name System) 확인 가능한 이름 및 IP 주소를 사용하는 고유한 클라이언트 리소스가 있습니다. NetWorker Server는 공유 스토리지(/nsr_share)을 사용하고 공유 IP 주소 및 호스트 이름을 사용합니다. 한 번에 하나의 노드에서만 활성화할 수 있습니다. 

다음 심박 조율기(pcs) 명령은 Pacemaker 구성 및 상태에 대한 개요를 가져오는 데 사용됩니다.

  • 클러스터 구성:

pcs status
예:
root@lnx-node1:~# pcs status 
Cluster name: rhelclus 
Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) 
Cluster Summary: 
  * Stack: corosync 
  * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum 
  * Last updated: Thu Oct 5 10:59:20 2023 
  * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan 
  * 2 nodes configured 
  * 3 resource instances configured 

Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan 
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan 
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled
위의 출력에서 클러스터에 있는 노드 수와 오프라인 또는 대기 상태인 노드가 있는지 확인할 수 있습니다. 출력에는 공유 파일 시스템(fs), 클러스터 리소스 IP 주소(ip) 및 NetWorker 서비스(nws(Flash Translation Layer)을 사용하는 데이터 저장 애플리케이션과 시스템에서 일반적으로 수행되는 반복 프로그램과 삭제 사이클로 인해 마모되기 쉽습니다. 여기에 사용된 리소스 이름은 NetWorker 클러스터 통합 가이드에서 사용되는 기본값입니다. 그러나 다른 이름을 사용할 수 있습니다. 다른 이름을 사용하는 경우 리소스 이름을 기록해 두고 이 문서의 지침을 따를 때 필요에 따라 바꿉니다.
  • Pacemaker 리소스 구성:
pcs resource config

예:

root@lnx-node1:~# pcs resource config 
Group: NW_group 
  Resource: fs (class=ocf provider=heartbeat type=Filesystem)
    Attributes: fs-instance_attributes 
      device=/dev/sdb1 
      directory=/nsr_share 
      fstype=xfs 
    Operations: 
      monitor: fs-monitor-interval-20 
        interval=20 
        timeout=300 
      start: fs-start-interval-0s 
        interval=0s 
        timeout=60s 
      stop: fs-stop-interval-0s interval=0s timeout=60s 
  Resource: ip (class=ocf provider=heartbeat type=IPaddr) 
    Attributes: ip-instance_attributes 
      cidr_netmask=24 
      ip=192.1xx.9.1x0 
      nic=ens192 
    Operations: 
      monitor: ip-monitor-interval-15 
        interval=15 
        timeout=120 
      start: ip-start-interval-0s 
        interval=0s 
        timeout=20s 
      stop: ip-stop-interval-0s 
        interval=0s 
        timeout=20s 
  Resource: nws (class=ocf provider=EMC_NetWorker type=Server) 
    Meta Attributes: nws-meta_attributes 
      is-managed=true 
    Operations: 
      meta-data: nws-meta-data-interval-0 
        interval=0 
        timeout=10 
      migrate_from: nws-migrate_from-interval-0 
        interval=0 
        timeout=120
      migrate_to: nws-migrate_to-interval-0 
        interval=0 
        timeout=60 
      monitor: nws-monitor-interval-100 
        interval=100 
        timeout=1200 
      start: nws-start-interval-0 
        interval=0 
        timeout=600 
      stop: nws-stop-interval-0 
        interval=0 
        timeout=600 
      validate-all: nws-validate-all-interval-0 
        interval=0 
        timeout=10

 위의 명령은 각각에 대해 자세히 설명합니다. pcs 리소스 구성. 초기 개요에서 주의해야 할 중요한 사항:

  • FS 리소스 "device=": 노드 파일 시스템에서 공유 스토리지의 마운트 지점으로 사용되는 디바이스입니다. 이 디바이스는 각 노드에서 동일해야 합니다. 이에 대해서는 이 KB의 뒷부분에서 설명합니다.
  • FS 리소스 "directory=": 공유 NetWorker 스토리지에서 사용하는 디렉토리입니다. 이 디렉토리는 "device=" 필드의 마운트 지점으로 연결되어야 합니다. 이에 대해서는 이 KB의 뒷부분에서 설명합니다.
  • IP 리소스 "ip=": NetWorker Server에서 사용하는 논리적(공유) 호스트 이름과 연결된 IP 주소입니다. 이 IP 주소는 액티브 노드에서 호스팅됩니다.
  • 공유 주소 및 스토리지의 Pacemaker 가시성:
lcmap

예:

root@lnx-node1:~# lcmap
type: NSR_CLU_TYPE;
clu_type: NSR_LC_TYPE;
interface version: 1.0;

type: NSR_CLU_VIRTHOST;
hostname: 192.168.9.110;
local: TRUE;
owned paths: /nsr_share;

clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
참고: 호스트 이름은 pcs resource config "ip=" 필드. 소유 경로는 pcs resource config "directory=" 필드. 경우에 따라 시작 문제가 관찰되면 lcmap 명령은 호스트 이름, 로컬 또는 소유 경로 필드를 반환하지 않습니다. 이는 문제를 나타냅니다.

초기 진단:

NetWorker 서비스가 시작되지 않으면 pcs Resource Status를 사용하여 실패한 리소스를 확인합니다.

pcs status
예: 
root@lnx-node1:~# pcs status 
... 
... 
Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs    (ocf::heartbeat:Filesystem):   Started lnx-node1.amer.lan 
    * ip    (ocf::heartbeat:IPaddr):       Started lnx-node1.amer.lan 
    * nws   (ocf::EMC_NetWorker:Server):   Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

 장애가 관찰되면 일반 장애 오류가 반환됩니다. 실패한 리소스는 FAILED로 표시됩니다. 

  • FS(Filesystem): 파일 시스템이 실패 상태인 경우 파일 시스템 장애에 대한 아래 섹션을 참조하십시오.
  • IP(IPaddr): IPaddr이 실패 상태인 경우 IPaddr 오류에 대한 아래 섹션을 참조하세요.
  • NWS(서버): NetWorker Server가 실패 상태이면 다음을 수행합니다.
  1. NetWorker Server의 daemon.raw 시작 중에 나타나는 모든 실패 메시지의 경우 서버의 /nsr_share/nsr/daemon.raw 는 공유 스토리지 경로에 있습니다. 물리적 노드 클라이언트 데몬은 /nsr.NetWorker.local/logs/daemon.raw명령을 수행할 수 있는 충분한 공간이 있어야 합니다. 자세한 내용은 Dell 문서 NetWorker: nsr_render_log 사용 방법
  2. 기본 로깅이 충분하지 않은 경우 다음을 수행하여 디버그를 활성화합니다.
    1. "서버" 리소스를 재시작합니다. 
pcs resource cleanup nws
  1. 다음으로 dbgcommand 에서 디버그를 활성화하려면 nsrd 프로세스:
dbgcommand -n nsrd Debug=#
1에서 9까지의 숫자를 사용하여 디버그 레벨을 설정합니다. 모니터링 daemon.raw 문제로 이어질 수 있는 추가 메시지의 경우
  1. 명령을 검토합니다. /var/log/pcsd/pcsd.log 모든 오류에 대해.
  2. 명령을 검토합니다. /var/log/pacemaker/pacemaker.log 모든 오류에 대해.
  3. 명령을 검토합니다. /var/log/messages 오류에 대한 파일.
참고: 검토 시 pcsd, Pacemaker 및 메시지 로그는 NetWorker 서비스가 시작하려고 시도한 것과 동일한 타임스탬프 동안 기록된 메시지를 찾습니다. 서비스 시작 실패와 일치하는 오류 또는 실패를 검토합니다.

파일 시스템 장애: 

  1. Pacemaker 리소스를 검토합니다.
pcs resource
  1. Filesystem 리소스에 대한 Pacemaker 리소스 구성을 검토합니다.
pcs resource fs
예:
 
디바이스 경로, 디렉토리 경로 및 fstype을 기록해 둡니다.
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started lnx-node1.amer.lan
    * ip        (ocf::heartbeat:IPaddr):         Started lnx-node1.amer.lan
    * nws       (ocf::EMC_NetWorker:Server):     Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
  Attributes: fs-instance_attributes
    device=/dev/sdb1
    directory=/nsr_share
    fstype=xfs
  Operations:
    monitor: fs-monitor-interval-20
      interval=20
      timeout=300
    start: fs-start-interval-0s
      interval=0s
      timeout=60s
    stop: fs-stop-interval-0s
      interval=0s
      timeout=60s
  1. 디바이스가 FS에 마운트되어 있는지 확인합니다.
df -h

예:

root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1                                     94G  1.5G   92G   2% /nsr_share
  1. 마운트 지점이 올바르게 구성되었는지 확인합니다. 디바이스를 경로와 연결:
lsblk

예:

root@lnx-node1:~# lsblk
NAME          MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda             8:0    0   40G  0 disk
├─sda1          8:1    0  600M  0 part /boot/efi
├─sda2          8:2    0    1G  0 part /boot
└─sda3          8:3    0 38.4G  0 part
  ├─rhel-root 253:0    0 34.4G  0 lvm  /
  └─rhel-swap 253:1    0    4G  0 lvm  [SWAP]
sdb             8:16   0  100G  0 disk
└─sdb1          8:17   0 93.1G  0 part /nsr_share
sr0            11:0    1 1024M  0 rom
  1. 디바이스에서 사용하는 파일 시스템이 올바른지 확인합니다.
blkid
예:
root@lnx-node1:~# blkid 
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs" 
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064" 
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162" 
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040" 
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3" 
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
fs(Filesystem) 리소스가 시작되지 않는 경우. 이는 NetWorker 외부의 문제를 나타냅니다. 시스템 관리자는 클러스터의 파일 시스템 구성을 검토하고 Pacemaker에서 사용하는 공유 스토리지에 문제가 없는지 확인해야 합니다. 시스템 또는 해당 디바이스의 장애와 관련된 추가 시스템 로그를 검토합니다. 
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

IPaddr 오류 :

  1. Pacemaker 리소스를 검토합니다.
pcs resource
  1. Filesystem 리소스에 대한 Pacemaker 리소스 구성을 검토합니다.
pcs resource config ip
예:
 
IP 주소와 NIC(Network Interface Card)를 기록해 둡니다.
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
  Attributes: ip-instance_attributes
    cidr_netmask=24
    ip=192.1xx.9.1x0
    nic=ens192
  Operations:
    monitor: ip-monitor-interval-15
      interval=15
      timeout=120
    start: ip-start-interval-0s
      interval=0s
      timeout=20s stop:
    ip-stop-interval-0s
      interval=0s
      timeout=20s
  1. 시스템에서 NIC를 사용할 수 있는지 확인합니다.
ifconfig -a
예: 
root@lnx-node1:~# ifconfig -a 
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
        inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
        inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
        ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
        RX packets 953865 bytes 349705527 (333.5 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0
        TX packets 1190983 bytes 179749786 (171.4 MiB)
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0 
        inet6 ::1 prefixlen 128 scopeid 0x10<host>
        loop txqueuelen 1000 (Local Loopback)
        RX packets 129798 bytes 13274289 (12.6 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0 
        TX packets 129798 bytes 13274289 (12.6 MiB) 
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
다음으로 표시된 IP 주소 ifconfig 물리적 노드 이름과 일치합니다. 그러나 노드가 활성 상태일 때 이 NIC를 통해 클러스터 IP에 연결할 수 있습니다. 두 노드 모두 동일한 NIC 이름을 사용하도록 구성되었는지 확인합니다.
  1. IP 주소가 NetWorker Server에서 사용하는 올바른(논리적) 호스트 이름으로 확인됩니까?
nslookup ip 

nslookup logical_name_FQDN 

nslookup logical_name_short
예:
root@lnx-node1:~# nslookup 192.1xx.9.1x0 
110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. 

root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0 

root@lnx-node1:~# nslookup lnx-nwcluster 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0

또한 물리적 노드의 IP 주소, FQDN 및 짧은 이름에 대해서도 동일한 단계를 수행하는 것이 좋습니다. 자세한 내용은 Dell 문서 NetWorker: 이름 확인 문제 해결 모범 사례

  1. 다음을 사용하여 클러스터 IP 주소에 연결할 수 있습니까? ping?
ping -c 4 ip
예:
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 
PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 
64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms 

--- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 
4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
IP(IPaddr) 리소스를 시작하지 못하는 경우. 이는 NetWorker 외부의 문제를 나타냅니다. 클러스터의 시스템 관리자와 네트워크 관리자가 참여하여 클러스터의 네트워크 구성을 검토하고 문제가 없는지 확인해야 합니다. 시스템 또는 해당 디바이스의 장애와 관련된 추가 시스템 로그를 검토합니다.
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

기타 PCS 명령:

작동 명령
심박 조율기 또는 pcs 버전:
pcs --version
Pacemaker 개요
pcs status
Pacemaker 리소스 개요
pcs resource
클러스터에서 경로 소유권을 확인합니다.
lcmap
리소스를 활성화(시작)합니다.
pcs resource enable resource_name
시작 pcs 디버그가 있는 리소스.
pcs resource debug-start resource_name 
PC 리소스 구성 설정 검토
pcs resource config resource_name
리소스 비활성화(중지):
pcs resource disable resource_name  
실패한 리소스를 재시작합니다.
pcs resource cleanup resource_name
노드에서 Pacemaker를 중지합니다.
pcs stop cluster [--force]
심박 조율기 시작
pcs cluster start [--all]
노드를 대기 상태로 전환합니다.
pcs node standby node_name
노드를 대기 상태에서 해제합니다. 
pcs node unstandby node_name

중요 로그 및 파일:

목적 보조 명령
/var/log/messages 시스템 리소스 및 서비스와 관련된 글로벌 시스템 메시지가 표시됩니다.
grep 'pacemaker.*\(error\|warning\)' /var/log/messages
/var/log/pacemaker/pacemaker.log  Pacemaker 리소스 및 기능에 대한 기본 Pacemaker 정보 로깅. N/A
/var/log/pcsd/pcsd.log 기본 Pacemaker 서비스/데몬(pcsd) 로그.  N/A
/var/log/cluster/corosync.log 기본 Pacemaker 노드 통신 로그입니다.  N/A
/usr/sbin/nw_hae.log NetWorker(nws) 리소스 시작 로그에 정의된 대로 /usr/lib/ocf/resource.d/EMC_NetWorker/Server N/A
/usr/lib/ocf/resource.d/EMC_NetWorker/Server  NetWorker Pacemaker 구성 파일입니다. PC에서 수행/관리하는 작업입니다. N/A

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000218281
Article Type: How To
Last Modified: 22 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.