NetWorker:Red Hat 叢集服務問題故障診斷指南
Summary: 本文概述如何處理部署在 Red Hat Pacemaker (pcs) 叢集上的 NetWorker 伺服器 NetWorker 服務啟動問題。本文適用於 NetWorker 備份系統管理員和 NetWorker 支援,以協助故障診斷這些問題。
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Instructions
NetWorker 伺服器可透過 Pacemaker (pcs) 服務。NetWorker 安裝在多個節點上。伺服器資料庫位於共用存儲上,根據起搏器配置中的活動節點在節點之間傳遞。NetWorker 伺服器使用共用的叢集名稱和 IP 位址,無論主機節點為何,都能確保一致的命名和定址。如需如何在叢集中設定 NetWorker 的詳細資料,請參閱 NetWorker 叢集整合指南。您可在 Dell 支援產品頁面取得本指南。
叢集拓撲:
本文使用具有以下設定的範例群集:
NetWorker 叢集拓撲
|
主機名稱
|
IP 位址
|
功能
|
|
lnx-node1.amer.lan
|
192.168.9.108
|
實體節點 1
|
|
lnx-node2.amer.lan
|
192.168.9.109
|
實體節點 2
|
|
lnx-nwcluster.amer.lan
|
192.168.9.110
|
NetWorker 使用的邏輯名稱
|
節點上的檔案系統會使用符號連結管理 NetWorker。
作用中節點:
NetWorker 伺服器以符號方式啟動的作用中節點
/nsr 到共用儲存位置:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx. 1 root root 14 Oct 5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x. 11 root root 116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x. 3 root root 17 Aug 31 17:23 nsr_share
被動節點:
“被動”節點象徵性地連結
/nsr 的輸出傳送至 /nsr.NetWorker.local:
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx. 1 root root 20 Oct 3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x. 11 root root 116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x. 2 root root 6 Aug 31 17:18 nsr_share
當節點處於被動狀態時, nsrexecd (NetWorker 用戶端) 軟體正在使用 /nsr.NetWorker.local。每個物理節點都有自己的客戶端資源,使用物理節點的域名系統 (DNS) 可解析名稱和IP位址。NetWorker 伺服器僅使用共用儲存裝置執行 (/nsr_share),並使用共用IP位址和主機名。此功能一次只能在一個節點上啟用。
以下起搏器(pcs) 命令用於取得起搏器組態和狀態的概觀:
-
叢集組態:
pcs status
範例:
root@lnx-node1:~# pcs status Cluster name: rhelclus Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) Cluster Summary: * Stack: corosync * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum * Last updated: Thu Oct 5 10:59:20 2023 * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan * 2 nodes configured * 3 resource instances configured Node List: * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] Full List of Resources: * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan Daemon Status: corosync: active/enabled pacemaker: active/enabled pcsd: active/enabled
從上述輸出結果,我們可以判斷叢集中有多少節點,以及是否有任何節點處於離線或待機狀態。輸出還顯示哪個節點正在託管共用檔案系統 (
fs),群集資源 IP 位址 (ip) 和 NetWorker 服務 (nws) 的資料儲存應用程式和系統中執行。此處使用的資源名稱為 NetWorker 叢集整合指南中使用的預設名稱;但是,可能會使用不同的名稱。如果使用不同的名稱,請記下資源名稱,並在按照本文中的說明進行操作時根據需要進行替換。
- 起搏器資源組態:
pcs resource config
範例:
root@lnx-node1:~# pcs resource config Group: NW_group Resource: fs (class=ocf provider=heartbeat type=Filesystem) Attributes: fs-instance_attributes device=/dev/sdb1 directory=/nsr_share fstype=xfs Operations: monitor: fs-monitor-interval-20 interval=20 timeout=300 start: fs-start-interval-0s interval=0s timeout=60s stop: fs-stop-interval-0s interval=0s timeout=60s Resource: ip (class=ocf provider=heartbeat type=IPaddr) Attributes: ip-instance_attributes cidr_netmask=24 ip=192.1xx.9.1x0 nic=ens192 Operations: monitor: ip-monitor-interval-15 interval=15 timeout=120 start: ip-start-interval-0s interval=0s timeout=20s stop: ip-stop-interval-0s interval=0s timeout=20s Resource: nws (class=ocf provider=EMC_NetWorker type=Server) Meta Attributes: nws-meta_attributes is-managed=true Operations: meta-data: nws-meta-data-interval-0 interval=0 timeout=10 migrate_from: nws-migrate_from-interval-0 interval=0 timeout=120 migrate_to: nws-migrate_to-interval-0 interval=0 timeout=60 monitor: nws-monitor-interval-100 interval=100 timeout=1200 start: nws-start-interval-0 interval=0 timeout=600 stop: nws-stop-interval-0 interval=0 timeout=600 validate-all: nws-validate-all-interval-0 interval=0 timeout=10
上述命令詳述每個 pcs 資源配置。初始概覽期間需要注意的重要事項:
- FS 資源「device=」:這是用作節點檔案系統上共用存儲的掛載點的設備。此裝置在每個節點上必須相同。稍後會在本 KB 中討論此問題。
- FS 資源「directory=」:這是共用 NetWorker 儲存裝置使用的目錄。該目錄應與「device=」欄位的掛接點相關聯。稍後會在本 KB 中討論此問題。
- IP 資源「ip=」:此 IP 位址與 NetWorker 伺服器使用的邏輯 (共用) 主機名稱相關聯。此IP位址託管在主動節點上。
- 共用位址和儲存的起搏器可見性:
lcmap
範例:
root@lnx-node1:~# lcmap type: NSR_CLU_TYPE; clu_type: NSR_LC_TYPE; interface version: 1.0; type: NSR_CLU_VIRTHOST; hostname: 192.168.9.110; local: TRUE; owned paths: /nsr_share; clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
注意:主機名稱應傳回與
pcs resource config 「ip=」欄位擁有的路徑應符合 pcs resource config 「directory=」欄位在某些情況下,當發現啟動問題時, lcmap 命令不會傳回主機名稱、本機或擁有的路徑欄位;這代表發生問題。
初步診斷:
如果 NetWorker 服務無法啟動,請檢查 pcs 資源狀態,以查看哪個資源失敗:
pcs status
範例:
root@lnx-node1:~# pcs status ... ... Node List: * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] Full List of Resources: * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan Daemon Status: corosync: active/enabled pacemaker: active/enabled pcsd: active/enabled
如果觀察到故障,則會傳回一般故障錯誤。失敗的資源顯示為「失敗」。
- FS (檔案系統):如果檔案系統處於故障狀態,請參閱以下 關於檔案系統故障章節。
- IP (IPaddr):如果 IPaddr 處於故障狀態,請參閱以下有關 IPaddr 故障的部分。
- NWS (伺服器):如果 NetWorker 伺服器處於故障狀態,請執行下列步驟:
- 檢閱 NetWorker 伺服器的
daemon.raw啟動期間出現的任何失敗訊息。伺服器的/nsr_share/nsr/daemon.raw位於共用存儲路徑中。實體節點用戶端守護程式位於/nsr.NetWorker.local/logs/daemon.raw。請參閱 Dell 文章 NetWorker:如何使用 nsr_render_log - 如果預設紀錄記錄不足,請透過以下方式啟用除錯:
- 嘗試重新啟動「伺服器」資源:
pcs resource cleanup nws
- 使用
dbgcommand若要啟用除錯nsrd過程:
dbgcommand -n nsrd Debug=#
使用數字 1 到 9 設定調試級別。監視
daemon.raw ,以瞭解可能導致問題的任何其他訊息。
- 檢閱
/var/log/pcsd/pcsd.log對於任何錯誤。 - 檢閱
/var/log/pacemaker/pacemaker.log對於任何錯誤。 - 檢閱
/var/log/messages檔是否有任何錯誤。
注意:檢視
pcsd、起搏器和訊息記錄會尋找在 NetWorker 服務嘗試啟動的相同時間戳記期間記錄的訊息。檢查與服務啟動失敗同時出現的任何錯誤或故障。
檔案系統故障:
- 檢視起搏器資源:
pcs resource
- 檢閱檔案系統資源的起搏器資源組態:
pcs resource fs
範例:
請記下裝置路徑、目錄路徑和 fstype。
root@lnx-node1:~# pcs resource
* Resource Group: NW_group:
* fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
* ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
* nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
Attributes: fs-instance_attributes
device=/dev/sdb1
directory=/nsr_share
fstype=xfs
Operations:
monitor: fs-monitor-interval-20
interval=20
timeout=300
start: fs-start-interval-0s
interval=0s
timeout=60s
stop: fs-stop-interval-0s
interval=0s
timeout=60s
- 確認裝置是否已掛接在 FS 上:
df -h
範例:
root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1 94G 1.5G 92G 2% /nsr_share
- 確認掛接點是否已正確配置;將裝置與路徑關聯:
lsblk
範例:
root@lnx-node1:~# lsblk
NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
sda 8:0 0 40G 0 disk
├─sda1 8:1 0 600M 0 part /boot/efi
├─sda2 8:2 0 1G 0 part /boot
└─sda3 8:3 0 38.4G 0 part
├─rhel-root 253:0 0 34.4G 0 lvm /
└─rhel-swap 253:1 0 4G 0 lvm [SWAP]
sdb 8:16 0 100G 0 disk
└─sdb1 8:17 0 93.1G 0 part /nsr_share
sr0 11:0 1 1024M 0 rom
- 確認裝置使用的檔案系統正確無誤:
blkid
範例:
root@lnx-node1:~# blkid
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs"
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064"
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162"
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040"
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3"
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
如果 fs (檔案系統) 資源無法啟動。這代表 NetWorker 發生問題。系統管理員應檢查群集的文件系統配置,並確認 Pacemaker 使用的共用存儲沒有問題。檢閱其他系統記錄,了解系統或其裝置的任何故障情形:
/var/log/pcsd/pcsd.log/var/log/pacemaker/pacemaker.log/var/log/messages
IPaddr 故障:
- 檢視起搏器資源:
pcs resource
- 檢閱檔案系統資源的起搏器資源組態:
pcs resource config ip
範例:
請記下 IP 位址和網路介面卡 (NIC)。
root@lnx-node1:~# pcs resource
* Resource Group: NW_group:
* fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
* ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
* nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
Attributes: ip-instance_attributes
cidr_netmask=24
ip=192.1xx.9.1x0
nic=ens192
Operations:
monitor: ip-monitor-interval-15
interval=15
timeout=120
start: ip-start-interval-0s
interval=0s
timeout=20s stop:
ip-stop-interval-0s
interval=0s
timeout=20s
- 確認系統上是否有網路介面卡:
ifconfig -a
範例:
root@lnx-node1:~# ifconfig -a
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
RX packets 953865 bytes 349705527 (333.5 MiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 1190983 bytes 179749786 (171.4 MiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
inet 127.0.0.1 netmask 255.0.0.0
inet6 ::1 prefixlen 128 scopeid 0x10<host>
loop txqueuelen 1000 (Local Loopback)
RX packets 129798 bytes 13274289 (12.6 MiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 129798 bytes 13274289 (12.6 MiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
顯示的 IP 位址 ifconfig 匹配物理節點名稱;但是,當節點處於活動狀態時,可以通過此 NIC 訪問群集 IP。請確定兩個節點都已設定為使用相同的 NIC 名稱。
- IP 位址是否解析為 NetWorker 伺服器使用的正確 (邏輯) 主機名稱?
nslookup ip nslookup logical_name_FQDN nslookup logical_name_short
範例:
root@lnx-node1:~# nslookup 192.1xx.9.1x0 110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. Server: 192.1xx.9.1x0 Address: 192.1xx.9.100#53 Name: lnx-nwcluster.amer.lan Address: 192.1xx.9.1x0 root@lnx-node1:~# nslookup lnx-nwcluster Server: 192.1xx.9.1x0 Address: 192.1xx.9.100#53 Name: lnx-nwcluster.amer.lan Address: 192.1xx.9.1x0
也建議針對實體節點的 IP 位址、FQDN 和短名稱執行相同的步驟。請參閱 Dell 文章 NetWorker:名稱解析故障診斷最佳實務。
- 是否可以使用以下方式到達叢集 IP 位址
ping?
ping -c 4 ip
範例:
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms --- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
如果 IP (IPaddr) 資源無法啟動。這代表 NetWorker 發生問題。應接洽叢集的系統管理員和網路系統管理員,以檢查叢集的網路組態,並確認未觀察到任何問題。檢閱其他系統記錄,了解系統或其裝置的任何故障情形:
/var/log/pcsd/pcsd.log/var/log/pacemaker/pacemaker.log/var/log/messages
其他 PCS 命令:
| 作業 | 命令 |
起搏器或 pcs 版本: |
|
| 起搏器概述 |
|
| 起搏器資源概述 |
|
| 判斷叢集中的路徑擁有權。 |
|
| 啟用 (啟動) 資源。 |
|
開始 pcs 具有調試的資源。 |
|
| 審閱電腦資源組態設定 |
|
| 停用 (停止) 資源: |
|
| 重新啟動失敗的資源。 |
|
| 在節點上停止起搏器。 |
|
| 啟動起搏器 |
|
| 使節點處於待機狀態。 |
|
| 使節點退出待機狀態。 |
|
重要的記錄與檔案:
| 路 | 用途 | 補充命令 |
/var/log/messages |
包含有關系統資源和服務的全域系統訊息。 |
|
/var/log/pacemaker/pacemaker.log |
起搏器資源和功能的預設起搏器信息記錄。 | N/A |
/var/log/pcsd/pcsd.log |
預設起搏器服務/守護程式 (pcsd) 日誌。 |
N/A |
/var/log/cluster/corosync.log |
預設起搏器節點通信日誌。 | N/A |
/usr/sbin/nw_hae.log |
NetWorker (nws) 中定義的資源啟動紀錄 /usr/lib/ocf/resource.d/EMC_NetWorker/Server |
N/A |
/usr/lib/ocf/resource.d/EMC_NetWorker/Server |
NetWorker 起搏器組態檔案。這是由電腦執行/管理的操作。 | N/A |
Affected Products
NetWorkerProducts
NetWorker Family, NetWorker SeriesArticle Properties
Article Number: 000218281
Article Type: How To
Last Modified: 22 Oct 2025
Version: 6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.