NetWorker:Red Hat 叢集服務問題故障診斷指南

Summary: 本文概述如何處理部署在 Red Hat Pacemaker (pcs) 叢集上的 NetWorker 伺服器 NetWorker 服務啟動問題。本文適用於 NetWorker 備份系統管理員和 NetWorker 支援,以協助故障診斷這些問題。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

NetWorker 伺服器可透過 Pacemaker (pcs) 服務。NetWorker 安裝在多個節點上。伺服器資料庫位於共用存儲上,根據起搏器配置中的活動節點在節點之間傳遞。NetWorker 伺服器使用共用的叢集名稱和 IP 位址,無論主機節點為何,都能確保一致的命名和定址。如需如何在叢集中設定 NetWorker 的詳細資料,請參閱 NetWorker 叢集整合指南。您可在 Dell 支援產品頁面取得本指南。 

叢集拓撲:

本文使用具有以下設定的範例群集:

NetWorker 叢集拓撲

主機名稱
IP 位址
功能
lnx-node1.amer.lan
192.168.9.108
實體節點 1
lnx-node2.amer.lan
192.168.9.109
實體節點 2
lnx-nwcluster.amer.lan
192.168.9.110
NetWorker 使用的邏輯名稱


節點上的檔案系統會使用符號連結管理 NetWorker。

作用中節點:

NetWorker 伺服器以符號方式啟動的作用中節點 /nsr 到共用儲存位置:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     14 Oct  5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x.  11 root root    116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x.   3 root root     17 Aug 31 17:23 nsr_share

被動節點:

“被動”節點象徵性地連結 /nsr 的輸出傳送至 /nsr.NetWorker.local
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     20 Oct  3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x.  11 root root    116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x.   2 root root      6 Aug 31 17:18 nsr_share

當節點處於被動狀態時, nsrexecd (NetWorker 用戶端) 軟體正在使用 /nsr.NetWorker.local。每個物理節點都有自己的客戶端資源,使用物理節點的域名系統 (DNS) 可解析名稱和IP位址。NetWorker 伺服器僅使用共用儲存裝置執行 (/nsr_share),並使用共用IP位址和主機名。此功能一次只能在一個節點上啟用。

以下起搏器(pcs) 命令用於取得起搏器組態和狀態的概觀:

  • 叢集組態:

pcs status
範例:
root@lnx-node1:~# pcs status 
Cluster name: rhelclus 
Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) 
Cluster Summary: 
  * Stack: corosync 
  * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum 
  * Last updated: Thu Oct 5 10:59:20 2023 
  * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan 
  * 2 nodes configured 
  * 3 resource instances configured 

Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan 
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan 
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled
從上述輸出結果,我們可以判斷叢集中有多少節點,以及是否有任何節點處於離線或待機狀態。輸出還顯示哪個節點正在託管共用檔案系統 (fs),群集資源 IP 位址 (ip) 和 NetWorker 服務 (nws) 的資料儲存應用程式和系統中執行。此處使用的資源名稱為 NetWorker 叢集整合指南中使用的預設名稱;但是,可能會使用不同的名稱。如果使用不同的名稱,請記下資源名稱,並在按照本文中的說明進行操作時根據需要進行替換。
  • 起搏器資源組態:
pcs resource config

範例:

root@lnx-node1:~# pcs resource config 
Group: NW_group 
  Resource: fs (class=ocf provider=heartbeat type=Filesystem)
    Attributes: fs-instance_attributes 
      device=/dev/sdb1 
      directory=/nsr_share 
      fstype=xfs 
    Operations: 
      monitor: fs-monitor-interval-20 
        interval=20 
        timeout=300 
      start: fs-start-interval-0s 
        interval=0s 
        timeout=60s 
      stop: fs-stop-interval-0s interval=0s timeout=60s 
  Resource: ip (class=ocf provider=heartbeat type=IPaddr) 
    Attributes: ip-instance_attributes 
      cidr_netmask=24 
      ip=192.1xx.9.1x0 
      nic=ens192 
    Operations: 
      monitor: ip-monitor-interval-15 
        interval=15 
        timeout=120 
      start: ip-start-interval-0s 
        interval=0s 
        timeout=20s 
      stop: ip-stop-interval-0s 
        interval=0s 
        timeout=20s 
  Resource: nws (class=ocf provider=EMC_NetWorker type=Server) 
    Meta Attributes: nws-meta_attributes 
      is-managed=true 
    Operations: 
      meta-data: nws-meta-data-interval-0 
        interval=0 
        timeout=10 
      migrate_from: nws-migrate_from-interval-0 
        interval=0 
        timeout=120
      migrate_to: nws-migrate_to-interval-0 
        interval=0 
        timeout=60 
      monitor: nws-monitor-interval-100 
        interval=100 
        timeout=1200 
      start: nws-start-interval-0 
        interval=0 
        timeout=600 
      stop: nws-stop-interval-0 
        interval=0 
        timeout=600 
      validate-all: nws-validate-all-interval-0 
        interval=0 
        timeout=10

 上述命令詳述每個 pcs 資源配置。初始概覽期間需要注意的重要事項:

  • FS 資源「device=」:這是用作節點檔案系統上共用存儲的掛載點的設備。此裝置在每個節點上必須相同。稍後會在本 KB 中討論此問題。
  • FS 資源「directory=」:這是共用 NetWorker 儲存裝置使用的目錄。該目錄應與「device=」欄位的掛接點相關聯。稍後會在本 KB 中討論此問題。
  • IP 資源「ip=」:此 IP 位址與 NetWorker 伺服器使用的邏輯 (共用) 主機名稱相關聯。此IP位址託管在主動節點上。
  • 共用位址和儲存的起搏器可見性:
lcmap

範例:

root@lnx-node1:~# lcmap
type: NSR_CLU_TYPE;
clu_type: NSR_LC_TYPE;
interface version: 1.0;

type: NSR_CLU_VIRTHOST;
hostname: 192.168.9.110;
local: TRUE;
owned paths: /nsr_share;

clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
注意:主機名稱應傳回與 pcs resource config 「ip=」欄位擁有的路徑應符合 pcs resource config 「directory=」欄位在某些情況下,當發現啟動問題時, lcmap 命令不會傳回主機名稱、本機或擁有的路徑欄位;這代表發生問題。

初步診斷:

如果 NetWorker 服務無法啟動,請檢查 pcs 資源狀態,以查看哪個資源失敗:

pcs status
範例: 
root@lnx-node1:~# pcs status 
... 
... 
Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs    (ocf::heartbeat:Filesystem):   Started lnx-node1.amer.lan 
    * ip    (ocf::heartbeat:IPaddr):       Started lnx-node1.amer.lan 
    * nws   (ocf::EMC_NetWorker:Server):   Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

 如果觀察到故障,則會傳回一般故障錯誤。失敗的資源顯示為「失敗」。 

  • FS (檔案系統):如果檔案系統處於故障狀態,請參閱以下 關於檔案系統故障章節。
  • IP (IPaddr):如果 IPaddr 處於故障狀態,請參閱以下有關 IPaddr 故障的部分。
  • NWS (伺服器):如果 NetWorker 伺服器處於故障狀態,請執行下列步驟:
  1. 檢閱 NetWorker 伺服器的 daemon.raw 啟動期間出現的任何失敗訊息。伺服器的 /nsr_share/nsr/daemon.raw 位於共用存儲路徑中。實體節點用戶端守護程式位於 /nsr.NetWorker.local/logs/daemon.raw。請參閱 Dell 文章 NetWorker:如何使用 nsr_render_log
  2. 如果預設紀錄記錄不足,請透過以下方式啟用除錯:
    1. 嘗試重新啟動「伺服器」資源: 
pcs resource cleanup nws
  1. 使用 dbgcommand 若要啟用除錯 nsrd 過程:
dbgcommand -n nsrd Debug=#
使用數字 1 到 9 設定調試級別。監視 daemon.raw ,以瞭解可能導致問題的任何其他訊息。
  1. 檢閱 /var/log/pcsd/pcsd.log 對於任何錯誤。
  2. 檢閱 /var/log/pacemaker/pacemaker.log 對於任何錯誤。
  3. 檢閱 /var/log/messages 檔是否有任何錯誤。
注意:檢視 pcsd、起搏器和訊息記錄會尋找在 NetWorker 服務嘗試啟動的相同時間戳記期間記錄的訊息。檢查與服務啟動失敗同時出現的任何錯誤或故障。

檔案系統故障: 

  1. 檢視起搏器資源:
pcs resource
  1. 檢閱檔案系統資源的起搏器資源組態:
pcs resource fs
範例:
 
請記下裝置路徑、目錄路徑和 fstype。
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started lnx-node1.amer.lan
    * ip        (ocf::heartbeat:IPaddr):         Started lnx-node1.amer.lan
    * nws       (ocf::EMC_NetWorker:Server):     Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
  Attributes: fs-instance_attributes
    device=/dev/sdb1
    directory=/nsr_share
    fstype=xfs
  Operations:
    monitor: fs-monitor-interval-20
      interval=20
      timeout=300
    start: fs-start-interval-0s
      interval=0s
      timeout=60s
    stop: fs-stop-interval-0s
      interval=0s
      timeout=60s
  1. 確認裝置是否已掛接在 FS 上:
df -h

範例:

root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1                                     94G  1.5G   92G   2% /nsr_share
  1. 確認掛接點是否已正確配置;將裝置與路徑關聯:
lsblk

範例:

root@lnx-node1:~# lsblk
NAME          MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda             8:0    0   40G  0 disk
├─sda1          8:1    0  600M  0 part /boot/efi
├─sda2          8:2    0    1G  0 part /boot
└─sda3          8:3    0 38.4G  0 part
  ├─rhel-root 253:0    0 34.4G  0 lvm  /
  └─rhel-swap 253:1    0    4G  0 lvm  [SWAP]
sdb             8:16   0  100G  0 disk
└─sdb1          8:17   0 93.1G  0 part /nsr_share
sr0            11:0    1 1024M  0 rom
  1. 確認裝置使用的檔案系統正確無誤:
blkid
範例:
root@lnx-node1:~# blkid 
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs" 
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064" 
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162" 
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040" 
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3" 
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
如果 fs (檔案系統) 資源無法啟動。這代表 NetWorker 發生問題。系統管理員應檢查群集的文件系統配置,並確認 Pacemaker 使用的共用存儲沒有問題。檢閱其他系統記錄,了解系統或其裝置的任何故障情形: 
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

IPaddr 故障:

  1. 檢視起搏器資源:
pcs resource
  1. 檢閱檔案系統資源的起搏器資源組態:
pcs resource config ip
範例:
 
請記下 IP 位址和網路介面卡 (NIC)。
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
  Attributes: ip-instance_attributes
    cidr_netmask=24
    ip=192.1xx.9.1x0
    nic=ens192
  Operations:
    monitor: ip-monitor-interval-15
      interval=15
      timeout=120
    start: ip-start-interval-0s
      interval=0s
      timeout=20s stop:
    ip-stop-interval-0s
      interval=0s
      timeout=20s
  1. 確認系統上是否有網路介面卡:
ifconfig -a
範例: 
root@lnx-node1:~# ifconfig -a 
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
        inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
        inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
        ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
        RX packets 953865 bytes 349705527 (333.5 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0
        TX packets 1190983 bytes 179749786 (171.4 MiB)
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0 
        inet6 ::1 prefixlen 128 scopeid 0x10<host>
        loop txqueuelen 1000 (Local Loopback)
        RX packets 129798 bytes 13274289 (12.6 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0 
        TX packets 129798 bytes 13274289 (12.6 MiB) 
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
顯示的 IP 位址 ifconfig 匹配物理節點名稱;但是,當節點處於活動狀態時,可以通過此 NIC 訪問群集 IP。請確定兩個節點都已設定為使用相同的 NIC 名稱。
  1. IP 位址是否解析為 NetWorker 伺服器使用的正確 (邏輯) 主機名稱?
nslookup ip 

nslookup logical_name_FQDN 

nslookup logical_name_short
範例:
root@lnx-node1:~# nslookup 192.1xx.9.1x0 
110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. 

root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0 

root@lnx-node1:~# nslookup lnx-nwcluster 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0

也建議針對實體節點的 IP 位址、FQDN 和短名稱執行相同的步驟。請參閱 Dell 文章 NetWorker:名稱解析故障診斷最佳實務

  1. 是否可以使用以下方式到達叢集 IP 位址 ping?
ping -c 4 ip
範例:
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 
PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 
64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms 

--- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 
4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
如果 IP (IPaddr) 資源無法啟動。這代表 NetWorker 發生問題。應接洽叢集的系統管理員和網路系統管理員,以檢查叢集的網路組態,並確認未觀察到任何問題。檢閱其他系統記錄,了解系統或其裝置的任何故障情形:
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

其他 PCS 命令:

作業 命令
起搏器或 pcs 版本:
pcs --version
起搏器概述
pcs status
起搏器資源概述
pcs resource
判斷叢集中的路徑擁有權。
lcmap
啟用 (啟動) 資源。
pcs resource enable resource_name
開始 pcs 具有調試的資源。
pcs resource debug-start resource_name 
審閱電腦資源組態設定
pcs resource config resource_name
停用 (停止) 資源:
pcs resource disable resource_name  
重新啟動失敗的資源。
pcs resource cleanup resource_name
在節點上停止起搏器。
pcs stop cluster [--force]
啟動起搏器
pcs cluster start [--all]
使節點處於待機狀態。
pcs node standby node_name
使節點退出待機狀態。 
pcs node unstandby node_name

重要的記錄與檔案:

用途 補充命令
/var/log/messages 包含有關系統資源和服務的全域系統訊息。
grep 'pacemaker.*\(error\|warning\)' /var/log/messages
/var/log/pacemaker/pacemaker.log  起搏器資源和功能的預設起搏器信息記錄。 N/A
/var/log/pcsd/pcsd.log 預設起搏器服務/守護程式 (pcsd) 日誌。  N/A
/var/log/cluster/corosync.log 預設起搏器節點通信日誌。  N/A
/usr/sbin/nw_hae.log NetWorker (nws) 中定義的資源啟動紀錄 /usr/lib/ocf/resource.d/EMC_NetWorker/Server N/A
/usr/lib/ocf/resource.d/EMC_NetWorker/Server  NetWorker 起搏器組態檔案。這是由電腦執行/管理的操作。 N/A

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000218281
Article Type: How To
Last Modified: 22 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.