NetWorker:Red Hat 群集服务问题故障处理指南
Summary: 本文概述了如何处理部署在 Red Hat Pacemaker (pcs) 群集上的 NetWorker 服务器的 NetWorker 服务启动问题。本文适合 NetWorker 备份管理员和 NetWorker 支持人员,可帮助解决这些问题。
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Instructions
NetWorker 服务器可以部署在使用 pacemaker (pcs) 服务。NetWorker 安装在多个节点上。服务器数据库位于共享存储上,基于 pacemaker 配置中的活动节点在节点之间传递。NetWorker 服务器使用共享群集名称和 IP 地址,从而确保命名和寻址一致,而不考虑托管节点。有关如何在群集中设置 NetWorker 的详细信息,请参阅 NetWorker 群集集成指南。本指南可在戴尔支持产品页面上找到。
群集拓扑:
本文使用具有以下配置的示例群集:
NetWorker 群集拓扑
|
主机名
|
IP 地址
|
功能
|
|
lnx-node1.amer.lan
|
192.168.9.108
|
物理节点 1
|
|
lnx-node2.amer.lan
|
192.168.9.109
|
物理节点 2
|
|
lnx-nwcluster.amer.lan
|
192.168.9.110
|
NetWorker 使用的逻辑名称
|
节点上的文件系统使用符号链接管理 NetWorker。
活动节点:
启动 NetWorker 服务器的活动节点以符号方式链接
/nsr 到共享存储位置:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx. 1 root root 14 Oct 5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x. 11 root root 116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x. 3 root root 17 Aug 31 17:23 nsr_share
被动节点:
“被动”节点以符号方式链接
/nsr 重定向到 /nsr.NetWorker.local:
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx. 1 root root 20 Oct 3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x. 11 root root 116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x. 2 root root 6 Aug 31 17:18 nsr_share
当节点处于被动状态时, nsrexecd (NetWorker 客户端)软件正在使用 /nsr.NetWorker.local。每个物理节点都有自己的客户端资源,使用物理节点的域名系统 (DNS) 可解析名称和 IP 地址。NetWorker 服务器仅使用共享存储 (/nsr_share) 并使用共享 IP 地址和主机名。这一次只能在一个节点上处于活动状态。
以下起搏器 (pcs) 命令用于获取 Pacemaker 配置和状态的概述:
-
群集配置:
pcs status
示例:
root@lnx-node1:~# pcs status Cluster name: rhelclus Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) Cluster Summary: * Stack: corosync * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum * Last updated: Thu Oct 5 10:59:20 2023 * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan * 2 nodes configured * 3 resource instances configured Node List: * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] Full List of Resources: * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan Daemon Status: corosync: active/enabled pacemaker: active/enabled pcsd: active/enabled
从上述输出中,我们可以确定群集中有多少个节点,以及是否有节点处于离线或待机状态。输出还会显示哪个节点托管共享文件系统 (
fs)、群集资源 IP 地址 (ip)和 NetWorker 服务 (nws)时,此方法起作用。此处使用的资源名称是《NetWorker 群集集成指南》中使用的默认值;但是,可能会使用不同的名称。如果您使用不同的名称,请记下资源名称,并在按照本文中的说明进行作时根据需要进行替换。
- Pacemaker 资源配置:
pcs resource config
示例:
root@lnx-node1:~# pcs resource config Group: NW_group Resource: fs (class=ocf provider=heartbeat type=Filesystem) Attributes: fs-instance_attributes device=/dev/sdb1 directory=/nsr_share fstype=xfs Operations: monitor: fs-monitor-interval-20 interval=20 timeout=300 start: fs-start-interval-0s interval=0s timeout=60s stop: fs-stop-interval-0s interval=0s timeout=60s Resource: ip (class=ocf provider=heartbeat type=IPaddr) Attributes: ip-instance_attributes cidr_netmask=24 ip=192.1xx.9.1x0 nic=ens192 Operations: monitor: ip-monitor-interval-15 interval=15 timeout=120 start: ip-start-interval-0s interval=0s timeout=20s stop: ip-stop-interval-0s interval=0s timeout=20s Resource: nws (class=ocf provider=EMC_NetWorker type=Server) Meta Attributes: nws-meta_attributes is-managed=true Operations: meta-data: nws-meta-data-interval-0 interval=0 timeout=10 migrate_from: nws-migrate_from-interval-0 interval=0 timeout=120 migrate_to: nws-migrate_to-interval-0 interval=0 timeout=60 monitor: nws-monitor-interval-100 interval=100 timeout=1200 start: nws-start-interval-0 interval=0 timeout=600 stop: nws-stop-interval-0 interval=0 timeout=600 validate-all: nws-validate-all-interval-0 interval=0 timeout=10
以上命令详细介绍了每个 pcs 资源配置。在初始概述期间需要注意的重要事项:
- FS 资源“device=”:这是用作节点文件系统上共享存储的装载点的设备。此设备在每个节点上必须相同。本知识库文章稍后将对此进行讨论。
- FS 资源 “directory=”:这是共享 NetWorker 存储使用的目录。该目录应关联为“device=”字段的安装点。本知识库文章稍后将对此进行讨论。
- IP 资源“ip=”:这是与 NetWorker 服务器使用的逻辑(共享)主机名关联的 IP 地址。此 IP 地址托管在活动节点上。
- 共享地址和存储的 Pacemaker 可见性:
lcmap
示例:
root@lnx-node1:~# lcmap type: NSR_CLU_TYPE; clu_type: NSR_LC_TYPE; interface version: 1.0; type: NSR_CLU_VIRTHOST; hostname: 192.168.9.110; local: TRUE; owned paths: /nsr_share; clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
提醒:主机名应返回从以下位置匹配的 IP 地址:
pcs resource config “ip=”字段。拥有的路径应与 pcs resource config “directory=”字段。在某些情况下,当观察到启动问题时, lcmap 命令不返回主机名、本地或拥有的路径字段;这表示存在问题。
初步诊断:
如果 NetWorker 服务无法启动,请检查 pcs 要查看哪个资源出现故障,请执行以下作的资源状态:
pcs status
示例:
root@lnx-node1:~# pcs status ... ... Node List: * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] Full List of Resources: * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan Daemon Status: corosync: active/enabled pacemaker: active/enabled pcsd: active/enabled
如果观察到故障,则返回一般故障错误。失败的资源显示为 FAILED。
- FS(文件系统):如果文件系统处于故障状态,请参阅下面有关 文件系统故障的部分。
- IP (IPaddr):如果 IPaddr 处于故障状态,请参阅下面有关 IPaddr 故障的部分。
- NWS(服务器):如果 NetWorker 服务器处于故障状态,请执行以下作:
- 查看 NetWorker 服务器的
daemon.raw以了解启动期间出现的任何故障消息。服务器的/nsr_share/nsr/daemon.raw位于共享存储路径中。物理节点客户端守护程序位于/nsr.NetWorker.local/logs/daemon.raw。请参阅戴尔文章 NetWorker:如何使用 nsr_render_log - 如果默认日志记录不够充分,请通过以下方式启用调试:
- 尝试重新启动“服务器”资源:
pcs resource cleanup nws
- 使用
dbgcommand要在以下节点上启用调试:nsrd过程:
dbgcommand -n nsrd Debug=#
使用数字 1 到 9 设置调试级别。监控
daemon.raw 了解可能指向问题的任何其他消息。
- 查看
/var/log/pcsd/pcsd.log对于任何错误。 - 查看
/var/log/pacemaker/pacemaker.log对于任何错误。 - 查看
/var/log/messages文件以了解是否存在任何错误。
提醒:在查看
pcsd、pacemaker 和 messages 日志查找在与 NetWorker 服务尝试启动的相同时间戳内记录的消息。查看是否存在与服务启动失败同时出现的任何错误或故障。
文件系统故障:
- 查看 Pacemaker 资源:
pcs resource
- 查看文件系统资源的 pacemaker 资源配置:
pcs resource fs
示例:
记下设备路径、目录路径和 fstype。
root@lnx-node1:~# pcs resource
* Resource Group: NW_group:
* fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
* ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
* nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
Attributes: fs-instance_attributes
device=/dev/sdb1
directory=/nsr_share
fstype=xfs
Operations:
monitor: fs-monitor-interval-20
interval=20
timeout=300
start: fs-start-interval-0s
interval=0s
timeout=60s
stop: fs-stop-interval-0s
interval=0s
timeout=60s
- 确认设备是否已装载在 FS 上:
df -h
示例:
root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1 94G 1.5G 92G 2% /nsr_share
- 确认装载点是否配置正确;将设备与路径关联:
lsblk
示例:
root@lnx-node1:~# lsblk
NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
sda 8:0 0 40G 0 disk
├─sda1 8:1 0 600M 0 part /boot/efi
├─sda2 8:2 0 1G 0 part /boot
└─sda3 8:3 0 38.4G 0 part
├─rhel-root 253:0 0 34.4G 0 lvm /
└─rhel-swap 253:1 0 4G 0 lvm [SWAP]
sdb 8:16 0 100G 0 disk
└─sdb1 8:17 0 93.1G 0 part /nsr_share
sr0 11:0 1 1024M 0 rom
- 确认设备使用的文件系统正确无误:
blkid
示例:
root@lnx-node1:~# blkid
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs"
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064"
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162"
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040"
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3"
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
如果 fs(文件系统)资源无法启动。这表示 NetWorker 之外存在问题。系统管理员应查看群集的文件系统配置,并确认 Pacemaker 使用的共享存储没有问题。查看有关系统或其设备的任何故障的其他系统日志:
/var/log/pcsd/pcsd.log/var/log/pacemaker/pacemaker.log/var/log/messages
IPaddr 故障:
- 查看 Pacemaker 资源:
pcs resource
- 查看文件系统资源的 pacemaker 资源配置:
pcs resource config ip
示例:
记下 IP 地址和网络接口卡 (NIC)。
root@lnx-node1:~# pcs resource
* Resource Group: NW_group:
* fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
* ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
* nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
Attributes: ip-instance_attributes
cidr_netmask=24
ip=192.1xx.9.1x0
nic=ens192
Operations:
monitor: ip-monitor-interval-15
interval=15
timeout=120
start: ip-start-interval-0s
interval=0s
timeout=20s stop:
ip-stop-interval-0s
interval=0s
timeout=20s
- 确认系统上是否有 NIC:
ifconfig -a
示例:
root@lnx-node1:~# ifconfig -a
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
RX packets 953865 bytes 349705527 (333.5 MiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 1190983 bytes 179749786 (171.4 MiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
inet 127.0.0.1 netmask 255.0.0.0
inet6 ::1 prefixlen 128 scopeid 0x10<host>
loop txqueuelen 1000 (Local Loopback)
RX packets 129798 bytes 13274289 (12.6 MiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 129798 bytes 13274289 (12.6 MiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
显示的 IP 地址 ifconfig 匹配物理节点名称;但是,当节点处于活动状态时,可通过此 NIC 访问群集 IP。确保两个节点均配置为使用相同的 NIC 名称。
- IP 地址是否解析为 NetWorker 服务器使用的正确(逻辑)主机名?
nslookup ip nslookup logical_name_FQDN nslookup logical_name_short
示例:
root@lnx-node1:~# nslookup 192.1xx.9.1x0 110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. Server: 192.1xx.9.1x0 Address: 192.1xx.9.100#53 Name: lnx-nwcluster.amer.lan Address: 192.1xx.9.1x0 root@lnx-node1:~# nslookup lnx-nwcluster Server: 192.1xx.9.1x0 Address: 192.1xx.9.100#53 Name: lnx-nwcluster.amer.lan Address: 192.1xx.9.1x0
此外,还建议对物理节点的 IP 地址、FQDN 和短名称执行相同的步骤。请参阅戴尔文章 NetWorker:名称解析故障排除最佳做法。
- 您可以使用以下命令访问群集 IP 地址吗?
ping?
ping -c 4 ip
示例:
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms --- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
如果 IP (IPaddr) 资源无法启动。这表示 NetWorker 之外存在问题。群集的系统管理员和网络管理员应参与审查群集的网络配置,并确认未发现任何问题。查看有关系统或其设备的任何故障的其他系统日志:
/var/log/pcsd/pcsd.log/var/log/pacemaker/pacemaker.log/var/log/messages
其他 PCS 命令:
| 操作 | 命令 |
心脏起搏器或 pcs version: |
|
| 起搏器概述 |
|
| Pacemaker 资源概述 |
|
| 确定群集中的路径所有权。 |
|
| 启用(启动)资源。 |
|
开始 pcs 资源与调试。 |
|
| 查看 PC 资源配置设置 |
|
| 禁用(停止)资源: |
|
| 重新启动失败的资源。 |
|
| 停止节点上的 pacemaker。 |
|
| 启动心脏起搏器 |
|
| 将节点置于待机状态。 |
|
| 使节点退出待机状态。 |
|
重要日志和文件:
| 路径 | 目的 | 补充命令 |
/var/log/messages |
包含有关系统资源和服务的全局系统消息。 |
|
/var/log/pacemaker/pacemaker.log |
Pacemaker 资源和函数的默认 Pacemaker 信息日志记录。 | N/A |
/var/log/pcsd/pcsd.log |
默认 pacemaker 服务/守护程序 (pcsd) 日志。 |
N/A |
/var/log/cluster/corosync.log |
默认 Pacemaker 节点通信日志。 | N/A |
/usr/sbin/nw_hae.log |
NetWorker (nws) 资源启动日志,定义如下: /usr/lib/ocf/resource.d/EMC_NetWorker/Server |
N/A |
/usr/lib/ocf/resource.d/EMC_NetWorker/Server |
NetWorker Pacemaker 配置文件。这是由 pcs 执行/管理的作。 | N/A |
Affected Products
NetWorkerProducts
NetWorker Family, NetWorker SeriesArticle Properties
Article Number: 000218281
Article Type: How To
Last Modified: 22 Oct 2025
Version: 6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.