NetWorker:Red Hat 叢集服務問題故障診斷指南

요약: 本文概述如何處理部署在 Red Hat Pacemaker (pcs) 叢集上的 NetWorker 伺服器 NetWorker 服務啟動問題。本文適用於 NetWorker 備份系統管理員和 NetWorker 支援,以協助故障診斷這些問題。

이 문서는 다음에 적용됩니다. 이 문서는 다음에 적용되지 않습니다. 이 문서는 특정 제품과 관련이 없습니다. 모든 제품 버전이 이 문서에 나와 있는 것은 아닙니다.

지침

NetWorker 伺服器可透過 Pacemaker (pcs) 服務。NetWorker 安裝在多個節點上。伺服器資料庫位於共用存儲上,根據起搏器配置中的活動節點在節點之間傳遞。NetWorker 伺服器使用共用的叢集名稱和 IP 位址,無論主機節點為何,都能確保一致的命名和定址。如需如何在叢集中設定 NetWorker 的詳細資料,請參閱 NetWorker 叢集整合指南。您可在 Dell 支援產品頁面取得本指南。 

叢集拓撲:

本文使用具有以下設定的範例群集:

NetWorker 叢集拓撲

主機名稱
IP 位址
功能
lnx-node1.amer.lan
192.168.9.108
實體節點 1
lnx-node2.amer.lan
192.168.9.109
實體節點 2
lnx-nwcluster.amer.lan
192.168.9.110
NetWorker 使用的邏輯名稱


節點上的檔案系統會使用符號連結管理 NetWorker。

作用中節點:

NetWorker 伺服器以符號方式啟動的作用中節點 /nsr 到共用儲存位置:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     14 Oct  5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x.  11 root root    116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x.   3 root root     17 Aug 31 17:23 nsr_share

被動節點:

“被動”節點象徵性地連結 /nsr 的輸出傳送至 /nsr.NetWorker.local
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     20 Oct  3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x.  11 root root    116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x.   2 root root      6 Aug 31 17:18 nsr_share

當節點處於被動狀態時, nsrexecd (NetWorker 用戶端) 軟體正在使用 /nsr.NetWorker.local。每個物理節點都有自己的客戶端資源,使用物理節點的域名系統 (DNS) 可解析名稱和IP位址。NetWorker 伺服器僅使用共用儲存裝置執行 (/nsr_share),並使用共用IP位址和主機名。此功能一次只能在一個節點上啟用。

以下起搏器(pcs) 命令用於取得起搏器組態和狀態的概觀:

  • 叢集組態:

pcs status
範例:
root@lnx-node1:~# pcs status 
Cluster name: rhelclus 
Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) 
Cluster Summary: 
  * Stack: corosync 
  * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum 
  * Last updated: Thu Oct 5 10:59:20 2023 
  * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan 
  * 2 nodes configured 
  * 3 resource instances configured 

Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan 
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan 
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled
從上述輸出結果,我們可以判斷叢集中有多少節點,以及是否有任何節點處於離線或待機狀態。輸出還顯示哪個節點正在託管共用檔案系統 (fs),群集資源 IP 位址 (ip) 和 NetWorker 服務 (nws) 的資料儲存應用程式和系統中執行。此處使用的資源名稱為 NetWorker 叢集整合指南中使用的預設名稱;但是,可能會使用不同的名稱。如果使用不同的名稱,請記下資源名稱,並在按照本文中的說明進行操作時根據需要進行替換。
  • 起搏器資源組態:
pcs resource config

範例:

root@lnx-node1:~# pcs resource config 
Group: NW_group 
  Resource: fs (class=ocf provider=heartbeat type=Filesystem)
    Attributes: fs-instance_attributes 
      device=/dev/sdb1 
      directory=/nsr_share 
      fstype=xfs 
    Operations: 
      monitor: fs-monitor-interval-20 
        interval=20 
        timeout=300 
      start: fs-start-interval-0s 
        interval=0s 
        timeout=60s 
      stop: fs-stop-interval-0s interval=0s timeout=60s 
  Resource: ip (class=ocf provider=heartbeat type=IPaddr) 
    Attributes: ip-instance_attributes 
      cidr_netmask=24 
      ip=192.1xx.9.1x0 
      nic=ens192 
    Operations: 
      monitor: ip-monitor-interval-15 
        interval=15 
        timeout=120 
      start: ip-start-interval-0s 
        interval=0s 
        timeout=20s 
      stop: ip-stop-interval-0s 
        interval=0s 
        timeout=20s 
  Resource: nws (class=ocf provider=EMC_NetWorker type=Server) 
    Meta Attributes: nws-meta_attributes 
      is-managed=true 
    Operations: 
      meta-data: nws-meta-data-interval-0 
        interval=0 
        timeout=10 
      migrate_from: nws-migrate_from-interval-0 
        interval=0 
        timeout=120
      migrate_to: nws-migrate_to-interval-0 
        interval=0 
        timeout=60 
      monitor: nws-monitor-interval-100 
        interval=100 
        timeout=1200 
      start: nws-start-interval-0 
        interval=0 
        timeout=600 
      stop: nws-stop-interval-0 
        interval=0 
        timeout=600 
      validate-all: nws-validate-all-interval-0 
        interval=0 
        timeout=10

 上述命令詳述每個 pcs 資源配置。初始概覽期間需要注意的重要事項:

  • FS 資源「device=」:這是用作節點檔案系統上共用存儲的掛載點的設備。此裝置在每個節點上必須相同。稍後會在本 KB 中討論此問題。
  • FS 資源「directory=」:這是共用 NetWorker 儲存裝置使用的目錄。該目錄應與「device=」欄位的掛接點相關聯。稍後會在本 KB 中討論此問題。
  • IP 資源「ip=」:此 IP 位址與 NetWorker 伺服器使用的邏輯 (共用) 主機名稱相關聯。此IP位址託管在主動節點上。
  • 共用位址和儲存的起搏器可見性:
lcmap

範例:

root@lnx-node1:~# lcmap
type: NSR_CLU_TYPE;
clu_type: NSR_LC_TYPE;
interface version: 1.0;

type: NSR_CLU_VIRTHOST;
hostname: 192.168.9.110;
local: TRUE;
owned paths: /nsr_share;

clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
注意:主機名稱應傳回與 pcs resource config 「ip=」欄位擁有的路徑應符合 pcs resource config 「directory=」欄位在某些情況下,當發現啟動問題時, lcmap 命令不會傳回主機名稱、本機或擁有的路徑欄位;這代表發生問題。

初步診斷:

如果 NetWorker 服務無法啟動,請檢查 pcs 資源狀態,以查看哪個資源失敗:

pcs status
範例: 
root@lnx-node1:~# pcs status 
... 
... 
Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs    (ocf::heartbeat:Filesystem):   Started lnx-node1.amer.lan 
    * ip    (ocf::heartbeat:IPaddr):       Started lnx-node1.amer.lan 
    * nws   (ocf::EMC_NetWorker:Server):   Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

 如果觀察到故障,則會傳回一般故障錯誤。失敗的資源顯示為「失敗」。 

  • FS (檔案系統):如果檔案系統處於故障狀態,請參閱以下 關於檔案系統故障章節。
  • IP (IPaddr):如果 IPaddr 處於故障狀態,請參閱以下有關 IPaddr 故障的部分。
  • NWS (伺服器):如果 NetWorker 伺服器處於故障狀態,請執行下列步驟:
  1. 檢閱 NetWorker 伺服器的 daemon.raw 啟動期間出現的任何失敗訊息。伺服器的 /nsr_share/nsr/daemon.raw 位於共用存儲路徑中。實體節點用戶端守護程式位於 /nsr.NetWorker.local/logs/daemon.raw。請參閱 Dell 文章 NetWorker:如何使用 nsr_render_log
  2. 如果預設紀錄記錄不足,請透過以下方式啟用除錯:
    1. 嘗試重新啟動「伺服器」資源: 
pcs resource cleanup nws
  1. 使用 dbgcommand 若要啟用除錯 nsrd 過程:
dbgcommand -n nsrd Debug=#
使用數字 1 到 9 設定調試級別。監視 daemon.raw ,以瞭解可能導致問題的任何其他訊息。
  1. 檢閱 /var/log/pcsd/pcsd.log 對於任何錯誤。
  2. 檢閱 /var/log/pacemaker/pacemaker.log 對於任何錯誤。
  3. 檢閱 /var/log/messages 檔是否有任何錯誤。
注意:檢視 pcsd、起搏器和訊息記錄會尋找在 NetWorker 服務嘗試啟動的相同時間戳記期間記錄的訊息。檢查與服務啟動失敗同時出現的任何錯誤或故障。

檔案系統故障: 

  1. 檢視起搏器資源:
pcs resource
  1. 檢閱檔案系統資源的起搏器資源組態:
pcs resource fs
範例:
 
請記下裝置路徑、目錄路徑和 fstype。
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started lnx-node1.amer.lan
    * ip        (ocf::heartbeat:IPaddr):         Started lnx-node1.amer.lan
    * nws       (ocf::EMC_NetWorker:Server):     Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
  Attributes: fs-instance_attributes
    device=/dev/sdb1
    directory=/nsr_share
    fstype=xfs
  Operations:
    monitor: fs-monitor-interval-20
      interval=20
      timeout=300
    start: fs-start-interval-0s
      interval=0s
      timeout=60s
    stop: fs-stop-interval-0s
      interval=0s
      timeout=60s
  1. 確認裝置是否已掛接在 FS 上:
df -h

範例:

root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1                                     94G  1.5G   92G   2% /nsr_share
  1. 確認掛接點是否已正確配置;將裝置與路徑關聯:
lsblk

範例:

root@lnx-node1:~# lsblk
NAME          MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda             8:0    0   40G  0 disk
├─sda1          8:1    0  600M  0 part /boot/efi
├─sda2          8:2    0    1G  0 part /boot
└─sda3          8:3    0 38.4G  0 part
  ├─rhel-root 253:0    0 34.4G  0 lvm  /
  └─rhel-swap 253:1    0    4G  0 lvm  [SWAP]
sdb             8:16   0  100G  0 disk
└─sdb1          8:17   0 93.1G  0 part /nsr_share
sr0            11:0    1 1024M  0 rom
  1. 確認裝置使用的檔案系統正確無誤:
blkid
範例:
root@lnx-node1:~# blkid 
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs" 
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064" 
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162" 
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040" 
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3" 
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
如果 fs (檔案系統) 資源無法啟動。這代表 NetWorker 發生問題。系統管理員應檢查群集的文件系統配置,並確認 Pacemaker 使用的共用存儲沒有問題。檢閱其他系統記錄,了解系統或其裝置的任何故障情形: 
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

IPaddr 故障:

  1. 檢視起搏器資源:
pcs resource
  1. 檢閱檔案系統資源的起搏器資源組態:
pcs resource config ip
範例:
 
請記下 IP 位址和網路介面卡 (NIC)。
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
  Attributes: ip-instance_attributes
    cidr_netmask=24
    ip=192.1xx.9.1x0
    nic=ens192
  Operations:
    monitor: ip-monitor-interval-15
      interval=15
      timeout=120
    start: ip-start-interval-0s
      interval=0s
      timeout=20s stop:
    ip-stop-interval-0s
      interval=0s
      timeout=20s
  1. 確認系統上是否有網路介面卡:
ifconfig -a
範例: 
root@lnx-node1:~# ifconfig -a 
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
        inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
        inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
        ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
        RX packets 953865 bytes 349705527 (333.5 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0
        TX packets 1190983 bytes 179749786 (171.4 MiB)
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0 
        inet6 ::1 prefixlen 128 scopeid 0x10<host>
        loop txqueuelen 1000 (Local Loopback)
        RX packets 129798 bytes 13274289 (12.6 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0 
        TX packets 129798 bytes 13274289 (12.6 MiB) 
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
顯示的 IP 位址 ifconfig 匹配物理節點名稱;但是,當節點處於活動狀態時,可以通過此 NIC 訪問群集 IP。請確定兩個節點都已設定為使用相同的 NIC 名稱。
  1. IP 位址是否解析為 NetWorker 伺服器使用的正確 (邏輯) 主機名稱?
nslookup ip 

nslookup logical_name_FQDN 

nslookup logical_name_short
範例:
root@lnx-node1:~# nslookup 192.1xx.9.1x0 
110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. 

root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0 

root@lnx-node1:~# nslookup lnx-nwcluster 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0

也建議針對實體節點的 IP 位址、FQDN 和短名稱執行相同的步驟。請參閱 Dell 文章 NetWorker:名稱解析故障診斷最佳實務

  1. 是否可以使用以下方式到達叢集 IP 位址 ping?
ping -c 4 ip
範例:
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 
PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 
64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms 

--- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 
4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
如果 IP (IPaddr) 資源無法啟動。這代表 NetWorker 發生問題。應接洽叢集的系統管理員和網路系統管理員,以檢查叢集的網路組態,並確認未觀察到任何問題。檢閱其他系統記錄,了解系統或其裝置的任何故障情形:
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

其他 PCS 命令:

作業 命令
起搏器或 pcs 版本:
pcs --version
起搏器概述
pcs status
起搏器資源概述
pcs resource
判斷叢集中的路徑擁有權。
lcmap
啟用 (啟動) 資源。
pcs resource enable resource_name
開始 pcs 具有調試的資源。
pcs resource debug-start resource_name 
審閱電腦資源組態設定
pcs resource config resource_name
停用 (停止) 資源:
pcs resource disable resource_name  
重新啟動失敗的資源。
pcs resource cleanup resource_name
在節點上停止起搏器。
pcs stop cluster [--force]
啟動起搏器
pcs cluster start [--all]
使節點處於待機狀態。
pcs node standby node_name
使節點退出待機狀態。 
pcs node unstandby node_name

重要的記錄與檔案:

用途 補充命令
/var/log/messages 包含有關系統資源和服務的全域系統訊息。
grep 'pacemaker.*\(error\|warning\)' /var/log/messages
/var/log/pacemaker/pacemaker.log  起搏器資源和功能的預設起搏器信息記錄。 N/A
/var/log/pcsd/pcsd.log 預設起搏器服務/守護程式 (pcsd) 日誌。  N/A
/var/log/cluster/corosync.log 預設起搏器節點通信日誌。  N/A
/usr/sbin/nw_hae.log NetWorker (nws) 中定義的資源啟動紀錄 /usr/lib/ocf/resource.d/EMC_NetWorker/Server N/A
/usr/lib/ocf/resource.d/EMC_NetWorker/Server  NetWorker 起搏器組態檔案。這是由電腦執行/管理的操作。 N/A

해당 제품

NetWorker

제품

NetWorker Family, NetWorker Series
문서 속성
문서 번호: 000218281
문서 유형: How To
마지막 수정 시간: 22 10월 2025
버전:  6
다른 Dell 사용자에게 질문에 대한 답변 찾기
지원 서비스
디바이스에 지원 서비스가 적용되는지 확인하십시오.