NetWorker:Red Hat 群集服务问题故障处理指南

Summary: 本文概述了如何处理部署在 Red Hat Pacemaker (pcs) 群集上的 NetWorker 服务器的 NetWorker 服务启动问题。本文适合 NetWorker 备份管理员和 NetWorker 支持人员,可帮助解决这些问题。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

NetWorker 服务器可以部署在使用 pacemaker (pcs) 服务。NetWorker 安装在多个节点上。服务器数据库位于共享存储上,基于 pacemaker 配置中的活动节点在节点之间传递。NetWorker 服务器使用共享群集名称和 IP 地址,从而确保命名和寻址一致,而不考虑托管节点。有关如何在群集中设置 NetWorker 的详细信息,请参阅 NetWorker 群集集成指南。本指南可在戴尔支持产品页面上找到。 

群集拓扑:

本文使用具有以下配置的示例群集:

NetWorker 群集拓扑

主机名
IP 地址
功能
lnx-node1.amer.lan
192.168.9.108
物理节点 1
lnx-node2.amer.lan
192.168.9.109
物理节点 2
lnx-nwcluster.amer.lan
192.168.9.110
NetWorker 使用的逻辑名称


节点上的文件系统使用符号链接管理 NetWorker。

活动节点:

启动 NetWorker 服务器的活动节点以符号方式链接 /nsr 到共享存储位置:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     14 Oct  5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x.  11 root root    116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x.   3 root root     17 Aug 31 17:23 nsr_share

被动节点:

“被动”节点以符号方式链接 /nsr 重定向到 /nsr.NetWorker.local
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     20 Oct  3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x.  11 root root    116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x.   2 root root      6 Aug 31 17:18 nsr_share

当节点处于被动状态时, nsrexecd (NetWorker 客户端)软件正在使用 /nsr.NetWorker.local。每个物理节点都有自己的客户端资源,使用物理节点的域名系统 (DNS) 可解析名称和 IP 地址。NetWorker 服务器仅使用共享存储 (/nsr_share) 并使用共享 IP 地址和主机名。这一次只能在一个节点上处于活动状态。

以下起搏器 (pcs) 命令用于获取 Pacemaker 配置和状态的概述:

  • 群集配置:

pcs status
示例:
root@lnx-node1:~# pcs status 
Cluster name: rhelclus 
Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) 
Cluster Summary: 
  * Stack: corosync 
  * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum 
  * Last updated: Thu Oct 5 10:59:20 2023 
  * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan 
  * 2 nodes configured 
  * 3 resource instances configured 

Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan 
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan 
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled
从上述输出中,我们可以确定群集中有多少个节点,以及是否有节点处于离线或待机状态。输出还会显示哪个节点托管共享文件系统 (fs)、群集资源 IP 地址 (ip)和 NetWorker 服务 (nws)时,此方法起作用。此处使用的资源名称是《NetWorker 群集集成指南》中使用的默认值;但是,可能会使用不同的名称。如果您使用不同的名称,请记下资源名称,并在按照本文中的说明进行作时根据需要进行替换。
  • Pacemaker 资源配置:
pcs resource config

示例:

root@lnx-node1:~# pcs resource config 
Group: NW_group 
  Resource: fs (class=ocf provider=heartbeat type=Filesystem)
    Attributes: fs-instance_attributes 
      device=/dev/sdb1 
      directory=/nsr_share 
      fstype=xfs 
    Operations: 
      monitor: fs-monitor-interval-20 
        interval=20 
        timeout=300 
      start: fs-start-interval-0s 
        interval=0s 
        timeout=60s 
      stop: fs-stop-interval-0s interval=0s timeout=60s 
  Resource: ip (class=ocf provider=heartbeat type=IPaddr) 
    Attributes: ip-instance_attributes 
      cidr_netmask=24 
      ip=192.1xx.9.1x0 
      nic=ens192 
    Operations: 
      monitor: ip-monitor-interval-15 
        interval=15 
        timeout=120 
      start: ip-start-interval-0s 
        interval=0s 
        timeout=20s 
      stop: ip-stop-interval-0s 
        interval=0s 
        timeout=20s 
  Resource: nws (class=ocf provider=EMC_NetWorker type=Server) 
    Meta Attributes: nws-meta_attributes 
      is-managed=true 
    Operations: 
      meta-data: nws-meta-data-interval-0 
        interval=0 
        timeout=10 
      migrate_from: nws-migrate_from-interval-0 
        interval=0 
        timeout=120
      migrate_to: nws-migrate_to-interval-0 
        interval=0 
        timeout=60 
      monitor: nws-monitor-interval-100 
        interval=100 
        timeout=1200 
      start: nws-start-interval-0 
        interval=0 
        timeout=600 
      stop: nws-stop-interval-0 
        interval=0 
        timeout=600 
      validate-all: nws-validate-all-interval-0 
        interval=0 
        timeout=10

 以上命令详细介绍了每个 pcs 资源配置。在初始概述期间需要注意的重要事项:

  • FS 资源“device=”:这是用作节点文件系统上共享存储的装载点的设备。此设备在每个节点上必须相同。本知识库文章稍后将对此进行讨论。
  • FS 资源 “directory=”:这是共享 NetWorker 存储使用的目录。该目录应关联为“device=”字段的安装点。本知识库文章稍后将对此进行讨论。
  • IP 资源“ip=”:这是与 NetWorker 服务器使用的逻辑(共享)主机名关联的 IP 地址。此 IP 地址托管在活动节点上。
  • 共享地址和存储的 Pacemaker 可见性:
lcmap

示例:

root@lnx-node1:~# lcmap
type: NSR_CLU_TYPE;
clu_type: NSR_LC_TYPE;
interface version: 1.0;

type: NSR_CLU_VIRTHOST;
hostname: 192.168.9.110;
local: TRUE;
owned paths: /nsr_share;

clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
提醒:主机名应返回从以下位置匹配的 IP 地址: pcs resource config “ip=”字段。拥有的路径应与 pcs resource config “directory=”字段。在某些情况下,当观察到启动问题时, lcmap 命令不返回主机名、本地或拥有的路径字段;这表示存在问题。

初步诊断:

如果 NetWorker 服务无法启动,请检查 pcs 要查看哪个资源出现故障,请执行以下作的资源状态:

pcs status
示例: 
root@lnx-node1:~# pcs status 
... 
... 
Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs    (ocf::heartbeat:Filesystem):   Started lnx-node1.amer.lan 
    * ip    (ocf::heartbeat:IPaddr):       Started lnx-node1.amer.lan 
    * nws   (ocf::EMC_NetWorker:Server):   Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

 如果观察到故障,则返回一般故障错误。失败的资源显示为 FAILED。 

  • FS(文件系统):如果文件系统处于故障状态,请参阅下面有关 文件系统故障的部分。
  • IP (IPaddr):如果 IPaddr 处于故障状态,请参阅下面有关 IPaddr 故障的部分。
  • NWS(服务器):如果 NetWorker 服务器处于故障状态,请执行以下作:
  1. 查看 NetWorker 服务器的 daemon.raw 以了解启动期间出现的任何故障消息。服务器的 /nsr_share/nsr/daemon.raw 位于共享存储路径中。物理节点客户端守护程序位于 /nsr.NetWorker.local/logs/daemon.raw。请参阅戴尔文章 NetWorker:如何使用 nsr_render_log
  2. 如果默认日志记录不够充分,请通过以下方式启用调试:
    1. 尝试重新启动“服务器”资源: 
pcs resource cleanup nws
  1. 使用 dbgcommand 要在以下节点上启用调试: nsrd 过程:
dbgcommand -n nsrd Debug=#
使用数字 1 到 9 设置调试级别。监控 daemon.raw 了解可能指向问题的任何其他消息。
  1. 查看 /var/log/pcsd/pcsd.log 对于任何错误。
  2. 查看 /var/log/pacemaker/pacemaker.log 对于任何错误。
  3. 查看 /var/log/messages 文件以了解是否存在任何错误。
提醒:在查看 pcsd、pacemaker 和 messages 日志查找在与 NetWorker 服务尝试启动的相同时间戳内记录的消息。查看是否存在与服务启动失败同时出现的任何错误或故障。

文件系统故障: 

  1. 查看 Pacemaker 资源:
pcs resource
  1. 查看文件系统资源的 pacemaker 资源配置:
pcs resource fs
示例:
 
记下设备路径、目录路径和 fstype。
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started lnx-node1.amer.lan
    * ip        (ocf::heartbeat:IPaddr):         Started lnx-node1.amer.lan
    * nws       (ocf::EMC_NetWorker:Server):     Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
  Attributes: fs-instance_attributes
    device=/dev/sdb1
    directory=/nsr_share
    fstype=xfs
  Operations:
    monitor: fs-monitor-interval-20
      interval=20
      timeout=300
    start: fs-start-interval-0s
      interval=0s
      timeout=60s
    stop: fs-stop-interval-0s
      interval=0s
      timeout=60s
  1. 确认设备是否已装载在 FS 上:
df -h

示例:

root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1                                     94G  1.5G   92G   2% /nsr_share
  1. 确认装载点是否配置正确;将设备与路径关联:
lsblk

示例:

root@lnx-node1:~# lsblk
NAME          MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda             8:0    0   40G  0 disk
├─sda1          8:1    0  600M  0 part /boot/efi
├─sda2          8:2    0    1G  0 part /boot
└─sda3          8:3    0 38.4G  0 part
  ├─rhel-root 253:0    0 34.4G  0 lvm  /
  └─rhel-swap 253:1    0    4G  0 lvm  [SWAP]
sdb             8:16   0  100G  0 disk
└─sdb1          8:17   0 93.1G  0 part /nsr_share
sr0            11:0    1 1024M  0 rom
  1. 确认设备使用的文件系统正确无误:
blkid
示例:
root@lnx-node1:~# blkid 
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs" 
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064" 
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162" 
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040" 
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3" 
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
如果 fs(文件系统)资源无法启动。这表示 NetWorker 之外存在问题。系统管理员应查看群集的文件系统配置,并确认 Pacemaker 使用的共享存储没有问题。查看有关系统或其设备的任何故障的其他系统日志: 
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

IPaddr 故障:

  1. 查看 Pacemaker 资源:
pcs resource
  1. 查看文件系统资源的 pacemaker 资源配置:
pcs resource config ip
示例:
 
记下 IP 地址和网络接口卡 (NIC)。
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
  Attributes: ip-instance_attributes
    cidr_netmask=24
    ip=192.1xx.9.1x0
    nic=ens192
  Operations:
    monitor: ip-monitor-interval-15
      interval=15
      timeout=120
    start: ip-start-interval-0s
      interval=0s
      timeout=20s stop:
    ip-stop-interval-0s
      interval=0s
      timeout=20s
  1. 确认系统上是否有 NIC:
ifconfig -a
示例: 
root@lnx-node1:~# ifconfig -a 
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
        inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
        inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
        ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
        RX packets 953865 bytes 349705527 (333.5 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0
        TX packets 1190983 bytes 179749786 (171.4 MiB)
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0 
        inet6 ::1 prefixlen 128 scopeid 0x10<host>
        loop txqueuelen 1000 (Local Loopback)
        RX packets 129798 bytes 13274289 (12.6 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0 
        TX packets 129798 bytes 13274289 (12.6 MiB) 
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
显示的 IP 地址 ifconfig 匹配物理节点名称;但是,当节点处于活动状态时,可通过此 NIC 访问群集 IP。确保两个节点均配置为使用相同的 NIC 名称。
  1. IP 地址是否解析为 NetWorker 服务器使用的正确(逻辑)主机名?
nslookup ip 

nslookup logical_name_FQDN 

nslookup logical_name_short
示例:
root@lnx-node1:~# nslookup 192.1xx.9.1x0 
110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. 

root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0 

root@lnx-node1:~# nslookup lnx-nwcluster 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0

此外,还建议对物理节点的 IP 地址、FQDN 和短名称执行相同的步骤。请参阅戴尔文章 NetWorker:名称解析故障排除最佳做法

  1. 您可以使用以下命令访问群集 IP 地址吗? ping?
ping -c 4 ip
示例:
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 
PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 
64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms 

--- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 
4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
如果 IP (IPaddr) 资源无法启动。这表示 NetWorker 之外存在问题。群集的系统管理员和网络管理员应参与审查群集的网络配置,并确认未发现任何问题。查看有关系统或其设备的任何故障的其他系统日志:
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

其他 PCS 命令:

操作 命令
心脏起搏器或 pcs version:
pcs --version
起搏器概述
pcs status
Pacemaker 资源概述
pcs resource
确定群集中的路径所有权。
lcmap
启用(启动)资源。
pcs resource enable resource_name
开始 pcs 资源与调试。
pcs resource debug-start resource_name 
查看 PC 资源配置设置
pcs resource config resource_name
禁用(停止)资源:
pcs resource disable resource_name  
重新启动失败的资源。
pcs resource cleanup resource_name
停止节点上的 pacemaker。
pcs stop cluster [--force]
启动心脏起搏器
pcs cluster start [--all]
将节点置于待机状态。
pcs node standby node_name
使节点退出待机状态。 
pcs node unstandby node_name

重要日志和文件:

路径 目的 补充命令
/var/log/messages 包含有关系统资源和服务的全局系统消息。
grep 'pacemaker.*\(error\|warning\)' /var/log/messages
/var/log/pacemaker/pacemaker.log  Pacemaker 资源和函数的默认 Pacemaker 信息日志记录。 N/A
/var/log/pcsd/pcsd.log 默认 pacemaker 服务/守护程序 (pcsd) 日志。  N/A
/var/log/cluster/corosync.log 默认 Pacemaker 节点通信日志。  N/A
/usr/sbin/nw_hae.log NetWorker (nws) 资源启动日志,定义如下: /usr/lib/ocf/resource.d/EMC_NetWorker/Server N/A
/usr/lib/ocf/resource.d/EMC_NetWorker/Server  NetWorker Pacemaker 配置文件。这是由 pcs 执行/管理的作。 N/A

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000218281
Article Type: How To
Last Modified: 22 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.