NetWorker:Red Hat 群集服务问题故障处理指南
요약: 本文概述了如何处理部署在 Red Hat Pacemaker (pcs) 群集上的 NetWorker 服务器的 NetWorker 服务启动问题。本文适合 NetWorker 备份管理员和 NetWorker 支持人员,可帮助解决这些问题。
이 문서는 다음에 적용됩니다.
이 문서는 다음에 적용되지 않습니다.
이 문서는 특정 제품과 관련이 없습니다.
모든 제품 버전이 이 문서에 나와 있는 것은 아닙니다.
지침
NetWorker 服务器可以部署在使用 pacemaker (pcs) 服务。NetWorker 安装在多个节点上。服务器数据库位于共享存储上,基于 pacemaker 配置中的活动节点在节点之间传递。NetWorker 服务器使用共享群集名称和 IP 地址,从而确保命名和寻址一致,而不考虑托管节点。有关如何在群集中设置 NetWorker 的详细信息,请参阅 NetWorker 群集集成指南。本指南可在戴尔支持产品页面上找到。
群集拓扑:
本文使用具有以下配置的示例群集:
NetWorker 群集拓扑
|
主机名
|
IP 地址
|
功能
|
|
lnx-node1.amer.lan
|
192.168.9.108
|
物理节点 1
|
|
lnx-node2.amer.lan
|
192.168.9.109
|
物理节点 2
|
|
lnx-nwcluster.amer.lan
|
192.168.9.110
|
NetWorker 使用的逻辑名称
|
节点上的文件系统使用符号链接管理 NetWorker。
活动节点:
启动 NetWorker 服务器的活动节点以符号方式链接
/nsr 到共享存储位置:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx. 1 root root 14 Oct 5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x. 11 root root 116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x. 3 root root 17 Aug 31 17:23 nsr_share
被动节点:
“被动”节点以符号方式链接
/nsr 重定向到 /nsr.NetWorker.local:
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx. 1 root root 20 Oct 3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x. 11 root root 116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x. 2 root root 6 Aug 31 17:18 nsr_share
当节点处于被动状态时, nsrexecd (NetWorker 客户端)软件正在使用 /nsr.NetWorker.local。每个物理节点都有自己的客户端资源,使用物理节点的域名系统 (DNS) 可解析名称和 IP 地址。NetWorker 服务器仅使用共享存储 (/nsr_share) 并使用共享 IP 地址和主机名。这一次只能在一个节点上处于活动状态。
以下起搏器 (pcs) 命令用于获取 Pacemaker 配置和状态的概述:
-
群集配置:
pcs status
示例:
root@lnx-node1:~# pcs status Cluster name: rhelclus Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) Cluster Summary: * Stack: corosync * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum * Last updated: Thu Oct 5 10:59:20 2023 * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan * 2 nodes configured * 3 resource instances configured Node List: * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] Full List of Resources: * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan Daemon Status: corosync: active/enabled pacemaker: active/enabled pcsd: active/enabled
从上述输出中,我们可以确定群集中有多少个节点,以及是否有节点处于离线或待机状态。输出还会显示哪个节点托管共享文件系统 (
fs)、群集资源 IP 地址 (ip)和 NetWorker 服务 (nws)时,此方法起作用。此处使用的资源名称是《NetWorker 群集集成指南》中使用的默认值;但是,可能会使用不同的名称。如果您使用不同的名称,请记下资源名称,并在按照本文中的说明进行作时根据需要进行替换。
- Pacemaker 资源配置:
pcs resource config
示例:
root@lnx-node1:~# pcs resource config Group: NW_group Resource: fs (class=ocf provider=heartbeat type=Filesystem) Attributes: fs-instance_attributes device=/dev/sdb1 directory=/nsr_share fstype=xfs Operations: monitor: fs-monitor-interval-20 interval=20 timeout=300 start: fs-start-interval-0s interval=0s timeout=60s stop: fs-stop-interval-0s interval=0s timeout=60s Resource: ip (class=ocf provider=heartbeat type=IPaddr) Attributes: ip-instance_attributes cidr_netmask=24 ip=192.1xx.9.1x0 nic=ens192 Operations: monitor: ip-monitor-interval-15 interval=15 timeout=120 start: ip-start-interval-0s interval=0s timeout=20s stop: ip-stop-interval-0s interval=0s timeout=20s Resource: nws (class=ocf provider=EMC_NetWorker type=Server) Meta Attributes: nws-meta_attributes is-managed=true Operations: meta-data: nws-meta-data-interval-0 interval=0 timeout=10 migrate_from: nws-migrate_from-interval-0 interval=0 timeout=120 migrate_to: nws-migrate_to-interval-0 interval=0 timeout=60 monitor: nws-monitor-interval-100 interval=100 timeout=1200 start: nws-start-interval-0 interval=0 timeout=600 stop: nws-stop-interval-0 interval=0 timeout=600 validate-all: nws-validate-all-interval-0 interval=0 timeout=10
以上命令详细介绍了每个 pcs 资源配置。在初始概述期间需要注意的重要事项:
- FS 资源“device=”:这是用作节点文件系统上共享存储的装载点的设备。此设备在每个节点上必须相同。本知识库文章稍后将对此进行讨论。
- FS 资源 “directory=”:这是共享 NetWorker 存储使用的目录。该目录应关联为“device=”字段的安装点。本知识库文章稍后将对此进行讨论。
- IP 资源“ip=”:这是与 NetWorker 服务器使用的逻辑(共享)主机名关联的 IP 地址。此 IP 地址托管在活动节点上。
- 共享地址和存储的 Pacemaker 可见性:
lcmap
示例:
root@lnx-node1:~# lcmap type: NSR_CLU_TYPE; clu_type: NSR_LC_TYPE; interface version: 1.0; type: NSR_CLU_VIRTHOST; hostname: 192.168.9.110; local: TRUE; owned paths: /nsr_share; clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
提醒:主机名应返回从以下位置匹配的 IP 地址:
pcs resource config “ip=”字段。拥有的路径应与 pcs resource config “directory=”字段。在某些情况下,当观察到启动问题时, lcmap 命令不返回主机名、本地或拥有的路径字段;这表示存在问题。
初步诊断:
如果 NetWorker 服务无法启动,请检查 pcs 要查看哪个资源出现故障,请执行以下作的资源状态:
pcs status
示例:
root@lnx-node1:~# pcs status ... ... Node List: * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] Full List of Resources: * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan Daemon Status: corosync: active/enabled pacemaker: active/enabled pcsd: active/enabled
如果观察到故障,则返回一般故障错误。失败的资源显示为 FAILED。
- FS(文件系统):如果文件系统处于故障状态,请参阅下面有关 文件系统故障的部分。
- IP (IPaddr):如果 IPaddr 处于故障状态,请参阅下面有关 IPaddr 故障的部分。
- NWS(服务器):如果 NetWorker 服务器处于故障状态,请执行以下作:
- 查看 NetWorker 服务器的
daemon.raw以了解启动期间出现的任何故障消息。服务器的/nsr_share/nsr/daemon.raw位于共享存储路径中。物理节点客户端守护程序位于/nsr.NetWorker.local/logs/daemon.raw。请参阅戴尔文章 NetWorker:如何使用 nsr_render_log - 如果默认日志记录不够充分,请通过以下方式启用调试:
- 尝试重新启动“服务器”资源:
pcs resource cleanup nws
- 使用
dbgcommand要在以下节点上启用调试:nsrd过程:
dbgcommand -n nsrd Debug=#
使用数字 1 到 9 设置调试级别。监控
daemon.raw 了解可能指向问题的任何其他消息。
- 查看
/var/log/pcsd/pcsd.log对于任何错误。 - 查看
/var/log/pacemaker/pacemaker.log对于任何错误。 - 查看
/var/log/messages文件以了解是否存在任何错误。
提醒:在查看
pcsd、pacemaker 和 messages 日志查找在与 NetWorker 服务尝试启动的相同时间戳内记录的消息。查看是否存在与服务启动失败同时出现的任何错误或故障。
文件系统故障:
- 查看 Pacemaker 资源:
pcs resource
- 查看文件系统资源的 pacemaker 资源配置:
pcs resource fs
示例:
记下设备路径、目录路径和 fstype。
root@lnx-node1:~# pcs resource
* Resource Group: NW_group:
* fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
* ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
* nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
Attributes: fs-instance_attributes
device=/dev/sdb1
directory=/nsr_share
fstype=xfs
Operations:
monitor: fs-monitor-interval-20
interval=20
timeout=300
start: fs-start-interval-0s
interval=0s
timeout=60s
stop: fs-stop-interval-0s
interval=0s
timeout=60s
- 确认设备是否已装载在 FS 上:
df -h
示例:
root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1 94G 1.5G 92G 2% /nsr_share
- 确认装载点是否配置正确;将设备与路径关联:
lsblk
示例:
root@lnx-node1:~# lsblk
NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
sda 8:0 0 40G 0 disk
├─sda1 8:1 0 600M 0 part /boot/efi
├─sda2 8:2 0 1G 0 part /boot
└─sda3 8:3 0 38.4G 0 part
├─rhel-root 253:0 0 34.4G 0 lvm /
└─rhel-swap 253:1 0 4G 0 lvm [SWAP]
sdb 8:16 0 100G 0 disk
└─sdb1 8:17 0 93.1G 0 part /nsr_share
sr0 11:0 1 1024M 0 rom
- 确认设备使用的文件系统正确无误:
blkid
示例:
root@lnx-node1:~# blkid
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs"
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064"
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162"
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040"
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3"
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
如果 fs(文件系统)资源无法启动。这表示 NetWorker 之外存在问题。系统管理员应查看群集的文件系统配置,并确认 Pacemaker 使用的共享存储没有问题。查看有关系统或其设备的任何故障的其他系统日志:
/var/log/pcsd/pcsd.log/var/log/pacemaker/pacemaker.log/var/log/messages
IPaddr 故障:
- 查看 Pacemaker 资源:
pcs resource
- 查看文件系统资源的 pacemaker 资源配置:
pcs resource config ip
示例:
记下 IP 地址和网络接口卡 (NIC)。
root@lnx-node1:~# pcs resource
* Resource Group: NW_group:
* fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
* ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
* nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
Attributes: ip-instance_attributes
cidr_netmask=24
ip=192.1xx.9.1x0
nic=ens192
Operations:
monitor: ip-monitor-interval-15
interval=15
timeout=120
start: ip-start-interval-0s
interval=0s
timeout=20s stop:
ip-stop-interval-0s
interval=0s
timeout=20s
- 确认系统上是否有 NIC:
ifconfig -a
示例:
root@lnx-node1:~# ifconfig -a
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
RX packets 953865 bytes 349705527 (333.5 MiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 1190983 bytes 179749786 (171.4 MiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
inet 127.0.0.1 netmask 255.0.0.0
inet6 ::1 prefixlen 128 scopeid 0x10<host>
loop txqueuelen 1000 (Local Loopback)
RX packets 129798 bytes 13274289 (12.6 MiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 129798 bytes 13274289 (12.6 MiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
显示的 IP 地址 ifconfig 匹配物理节点名称;但是,当节点处于活动状态时,可通过此 NIC 访问群集 IP。确保两个节点均配置为使用相同的 NIC 名称。
- IP 地址是否解析为 NetWorker 服务器使用的正确(逻辑)主机名?
nslookup ip nslookup logical_name_FQDN nslookup logical_name_short
示例:
root@lnx-node1:~# nslookup 192.1xx.9.1x0 110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. Server: 192.1xx.9.1x0 Address: 192.1xx.9.100#53 Name: lnx-nwcluster.amer.lan Address: 192.1xx.9.1x0 root@lnx-node1:~# nslookup lnx-nwcluster Server: 192.1xx.9.1x0 Address: 192.1xx.9.100#53 Name: lnx-nwcluster.amer.lan Address: 192.1xx.9.1x0
此外,还建议对物理节点的 IP 地址、FQDN 和短名称执行相同的步骤。请参阅戴尔文章 NetWorker:名称解析故障排除最佳做法。
- 您可以使用以下命令访问群集 IP 地址吗?
ping?
ping -c 4 ip
示例:
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms --- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
如果 IP (IPaddr) 资源无法启动。这表示 NetWorker 之外存在问题。群集的系统管理员和网络管理员应参与审查群集的网络配置,并确认未发现任何问题。查看有关系统或其设备的任何故障的其他系统日志:
/var/log/pcsd/pcsd.log/var/log/pacemaker/pacemaker.log/var/log/messages
其他 PCS 命令:
| 操作 | 命令 |
心脏起搏器或 pcs version: |
|
| 起搏器概述 |
|
| Pacemaker 资源概述 |
|
| 确定群集中的路径所有权。 |
|
| 启用(启动)资源。 |
|
开始 pcs 资源与调试。 |
|
| 查看 PC 资源配置设置 |
|
| 禁用(停止)资源: |
|
| 重新启动失败的资源。 |
|
| 停止节点上的 pacemaker。 |
|
| 启动心脏起搏器 |
|
| 将节点置于待机状态。 |
|
| 使节点退出待机状态。 |
|
重要日志和文件:
| 路径 | 目的 | 补充命令 |
/var/log/messages |
包含有关系统资源和服务的全局系统消息。 |
|
/var/log/pacemaker/pacemaker.log |
Pacemaker 资源和函数的默认 Pacemaker 信息日志记录。 | N/A |
/var/log/pcsd/pcsd.log |
默认 pacemaker 服务/守护程序 (pcsd) 日志。 |
N/A |
/var/log/cluster/corosync.log |
默认 Pacemaker 节点通信日志。 | N/A |
/usr/sbin/nw_hae.log |
NetWorker (nws) 资源启动日志,定义如下: /usr/lib/ocf/resource.d/EMC_NetWorker/Server |
N/A |
/usr/lib/ocf/resource.d/EMC_NetWorker/Server |
NetWorker Pacemaker 配置文件。这是由 pcs 执行/管理的作。 | N/A |
해당 제품
NetWorker제품
NetWorker Family, NetWorker Series문서 속성
문서 번호: 000218281
문서 유형: How To
마지막 수정 시간: 22 10월 2025
버전: 6
다른 Dell 사용자에게 질문에 대한 답변 찾기
지원 서비스
디바이스에 지원 서비스가 적용되는지 확인하십시오.