NetWorker:Red Hat Cluster Serviceの問題のトラブルシューティング ガイド

Summary: この記事では、Red Hat Pacemaker (pcs)クラスターに導入されたNetWorkerサーバーで、NetWorkerサービス起動の問題に対処する方法の概要について説明します。この記事は、これらの問題のトラブルシューティングに役立つNetWorkerバックアップ管理者およびNetWorkerサポートに適しています。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

NetWorkerサーバーは、ペースメーカー(pcs)サービス。NetWorkerは複数のノードにインストールされます。サーバー データベースは共有ストレージ上にあり、ペースメーカー構成のアクティブ ノードに基づいてノード間で渡されます。NetWorkerサーバーは共有クラスター名とIPアドレスを使用して、ホスティング ノードに関係なく、一貫したネーミングとアドレス指定を保証します。クラスターでNetWorkerをセットアップする方法の詳細については、『NetWorkerクラスター統合ガイド』を参照してください。このガイドは、Dellサポートの製品ページで入手できます。 

クラスター トポロジー:

この記事では、次の構成のクラスターの例を使用します。

NetWorkerクラスター トポロジー

ホスト名
IP アドレス
機能
lnx-node1.amer.lan
192.168.9.108
物理ノード1
lnx-node2.amer.lan
192.168.9.109
物理ノード2
lnx-nwcluster.amer.lan
192.168.9.110
NetWorkerで使用される論理名


ノード上のファイル システムは、シンボリック リンクを使用してNetWorkerを管理します。

アクティブ ノード:

NetWorkerサーバがシンボリック リンクで起動されるアクティブ ノード /nsr 共有ストレージの場所に移動します。
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     14 Oct  5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x.  11 root root    116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x.   3 root root     17 Aug 31 17:23 nsr_share

パッシブ ノード:

「パッシブ」ノードは、シンボリックにリンクします /nsr の出力を /nsr.NetWorker.localが使用するJava Runtime Environmentへのパスを定義します。
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     20 Oct  3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x.  11 root root    116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x.   2 root root      6 Aug 31 17:18 nsr_share

ノードがパッシブ状態の場合、 nsrexecd (NetWorkerクライアント)ソフトウェアは次を使用して実行されています /nsr.NetWorker.localの詳細を確認してください。各物理ノードには、物理ノードのDNS(ドメイン ネーム システム)で解決可能な名前とIPアドレスを使用する独自のクライアント リソースがあります。NetWorkerサーバーは、共有ストレージ(/nsr_share)に使用され、共有 IP アドレスとホスト名が使用されます。これは、一度に1つのノードでのみアクティブにできます。

次のペースメーカー(pcs)コマンドは、ペースメーカーの構成とステータスの概要を取得するために使用されます。

  • クラスター構成:

pcs status
Example:
root@lnx-node1:~# pcs status 
Cluster name: rhelclus 
Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) 
Cluster Summary: 
  * Stack: corosync 
  * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum 
  * Last updated: Thu Oct 5 10:59:20 2023 
  * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan 
  * 2 nodes configured 
  * 3 resource instances configured 

Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan 
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan 
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled
上記の出力から、クラスター内のノードの数と、オフラインまたはスタンバイ ステータスのノードがあるかどうかを確認できます。出力には、共有ファイル システムをホストしているノードも表示されます(fs)、クラスター リソースのIPアドレス(ip)、NetWorkerサービス(nws)を使用するシステムで一般的に行われる、繰り返しのプログラムおよび消去サイクルによって劣化しやすい傾向があります。ここで使用するリソース名は、『NetWorkerクラスター統合ガイド』で使用されるデフォルト名です。ただし、異なる名前が使用されている可能性があります。別の名前を使用している場合は、リソース名をメモしておき、この記事の手順に従うときに必要に応じて置き換えてください。
  • Pacemaker リソースの構成:
pcs resource config

Example:

root@lnx-node1:~# pcs resource config 
Group: NW_group 
  Resource: fs (class=ocf provider=heartbeat type=Filesystem)
    Attributes: fs-instance_attributes 
      device=/dev/sdb1 
      directory=/nsr_share 
      fstype=xfs 
    Operations: 
      monitor: fs-monitor-interval-20 
        interval=20 
        timeout=300 
      start: fs-start-interval-0s 
        interval=0s 
        timeout=60s 
      stop: fs-stop-interval-0s interval=0s timeout=60s 
  Resource: ip (class=ocf provider=heartbeat type=IPaddr) 
    Attributes: ip-instance_attributes 
      cidr_netmask=24 
      ip=192.1xx.9.1x0 
      nic=ens192 
    Operations: 
      monitor: ip-monitor-interval-15 
        interval=15 
        timeout=120 
      start: ip-start-interval-0s 
        interval=0s 
        timeout=20s 
      stop: ip-stop-interval-0s 
        interval=0s 
        timeout=20s 
  Resource: nws (class=ocf provider=EMC_NetWorker type=Server) 
    Meta Attributes: nws-meta_attributes 
      is-managed=true 
    Operations: 
      meta-data: nws-meta-data-interval-0 
        interval=0 
        timeout=10 
      migrate_from: nws-migrate_from-interval-0 
        interval=0 
        timeout=120
      migrate_to: nws-migrate_to-interval-0 
        interval=0 
        timeout=60 
      monitor: nws-monitor-interval-100 
        interval=100 
        timeout=1200 
      start: nws-start-interval-0 
        interval=0 
        timeout=600 
      stop: nws-stop-interval-0 
        interval=0 
        timeout=600 
      validate-all: nws-validate-all-interval-0 
        interval=0 
        timeout=10

 上記のコマンドでは、各詳細が説明されています pcs リソースの構成。最初の概要で注意すべき重要事項:

  • FSリソース「device=」: これは、ノード ファイル システム上の共有ストレージのマウントポイントとして使用されるデバイスです。このデバイスは、各ノードで同じである必要があります。これについては、このKBで後ほど説明します。
  • FSリソース「directory=」: これは、共有NetWorkerストレージが使用するディレクトリです。ディレクトリーは、「device=」フィールドのマウントポイントとして関連づける必要があります。これについては、このKBで後ほど説明します。
  • IPリソース「ip=」: これは、NetWorkerサーバーによって使用される論理(共有)ホスト名に関連づけられているIPアドレスです。このIPアドレスは、アクティブ ノードでホストされます。
  • 共有アドレスとストレージのペースメーカーの可視性:
lcmap

Example:

root@lnx-node1:~# lcmap
type: NSR_CLU_TYPE;
clu_type: NSR_LC_TYPE;
interface version: 1.0;

type: NSR_CLU_VIRTHOST;
hostname: 192.168.9.110;
local: TRUE;
owned paths: /nsr_share;

clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
メモ: ホスト名は、 pcs resource config 「ip=」フィールド。所有するパスは、次のものと一致する必要があります。 pcs resource config "directory="フィールド。場合によっては、起動の問題が発生すると、 lcmap コマンドは、ホスト名、ローカル、または所有パスフィールドを返しません。これは問題を示しています。

初期診断:

NetWorkerサービスの開始に失敗した場合は、 pcs リソース ステータスを使用して、障害が発生しているリソースを確認します。

pcs status
Example: 
root@lnx-node1:~# pcs status 
... 
... 
Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs    (ocf::heartbeat:Filesystem):   Started lnx-node1.amer.lan 
    * ip    (ocf::heartbeat:IPaddr):       Started lnx-node1.amer.lan 
    * nws   (ocf::EMC_NetWorker:Server):   Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

 障害が発生した場合は、一般的な障害エラーが返されます。失敗したリソースはFAILEDと表示されます。 

  • FS(ファイルシステム): ファイルシステムが障害状態の場合は、次の ファイル システムの障害に関するセクションを参照してください。
  • IP(IPアドレス): IPaddrが障害状態の場合は、次の「IPアドレスの障害」に関するセクションを参照してください。
  • NWS(サーバー): NetWorkerサーバーが障害状態の場合は、次の手順を実行します。
  1. NetWorkerサーバーの daemon.raw 起動中に表示されるエラーメッセージ。サーバーの /nsr_share/nsr/daemon.raw は、共有ストレージ パスにあります。物理ノード クライアント デーモンは、 /nsr.NetWorker.local/logs/daemon.rawの詳細を確認してください。Dellの記事「NetWorker: nsr_render_logの使用方法(英語)」を参照してください。
  2. デフォルトのログ記録が十分でない場合は、次の方法でデバッグを有効にします。
    1. 「Server」リソースの再起動を試みます。 
pcs resource cleanup nws
  1. コマンド dbgcommand でデバッグを有効にするには、 nsrd 過程:
dbgcommand -n nsrd Debug=#
1 から 9 までの番号を使用してデバッグ レベルを設定します。の監視 daemon.raw 問題に誘導する可能性のある追加のメッセージ。
  1. サポートされているドライバおよびファームウェアについては /var/log/pcsd/pcsd.log エラーがないか。
  2. サポートされているドライバおよびファームウェアについては /var/log/pacemaker/pacemaker.log エラーがないか。
  3. サポートされているドライバおよびファームウェアについては /var/log/messages ファイルでエラーがないか確認します。
メモ: レビュー時 pcsd、ペースメーカー、メッセージ ログでは、NetWorkerサービスの開始が試行されたのと同じタイムスタンプでログに記録されたメッセージを探します。サービス起動の失敗と一致するエラーまたは障害を確認します。

ファイルシステムの障害: 

  1. ペースメーカーのリソースを確認します。
pcs resource
  1. ファイルシステム リソースのペースメーカー リソース構成を確認します。
pcs resource fs
Example:
 
デバイス パス、ディレクトリー パス、fstypeをメモしておきます。
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started lnx-node1.amer.lan
    * ip        (ocf::heartbeat:IPaddr):         Started lnx-node1.amer.lan
    * nws       (ocf::EMC_NetWorker:Server):     Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
  Attributes: fs-instance_attributes
    device=/dev/sdb1
    directory=/nsr_share
    fstype=xfs
  Operations:
    monitor: fs-monitor-interval-20
      interval=20
      timeout=300
    start: fs-start-interval-0s
      interval=0s
      timeout=60s
    stop: fs-stop-interval-0s
      interval=0s
      timeout=60s
  1. デバイスがFSにマウントされているかどうかを確認します。
df -h

Example:

root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1                                     94G  1.5G   92G   2% /nsr_share
  1. マウントポイントが正しく構成されているかどうかを確認します。デバイスとパスの関連づけ:
lsblk

Example:

root@lnx-node1:~# lsblk
NAME          MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda             8:0    0   40G  0 disk
├─sda1          8:1    0  600M  0 part /boot/efi
├─sda2          8:2    0    1G  0 part /boot
└─sda3          8:3    0 38.4G  0 part
  ├─rhel-root 253:0    0 34.4G  0 lvm  /
  └─rhel-swap 253:1    0    4G  0 lvm  [SWAP]
sdb             8:16   0  100G  0 disk
└─sdb1          8:17   0 93.1G  0 part /nsr_share
sr0            11:0    1 1024M  0 rom
  1. デバイスで使用されているファイル システムが正しいことを確認します。
blkid
Example:
root@lnx-node1:~# blkid 
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs" 
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064" 
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162" 
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040" 
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3" 
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
fs(ファイルシステム)リソースの起動に失敗した場合。これは、NetWorker以外の問題を示しています。システム管理者は、クラスターのファイル システム構成を確認し、pacemaker で使用される共有ストレージに問題がないことを確認する必要があります。システムまたはそのデバイスの障害に関する追加のシステム ログを確認します。 
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

IPアドレス障害:

  1. ペースメーカーのリソースを確認します。
pcs resource
  1. ファイルシステム リソースのペースメーカー リソース構成を確認します。
pcs resource config ip
Example:
 
IPアドレスとネットワーク インターフェイス カード(NIC)をメモしておきます。
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
  Attributes: ip-instance_attributes
    cidr_netmask=24
    ip=192.1xx.9.1x0
    nic=ens192
  Operations:
    monitor: ip-monitor-interval-15
      interval=15
      timeout=120
    start: ip-start-interval-0s
      interval=0s
      timeout=20s stop:
    ip-stop-interval-0s
      interval=0s
      timeout=20s
  1. NICがシステムで使用可能かどうかを確認します。
ifconfig -a
Example: 
root@lnx-node1:~# ifconfig -a 
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
        inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
        inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
        ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
        RX packets 953865 bytes 349705527 (333.5 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0
        TX packets 1190983 bytes 179749786 (171.4 MiB)
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0 
        inet6 ::1 prefixlen 128 scopeid 0x10<host>
        loop txqueuelen 1000 (Local Loopback)
        RX packets 129798 bytes 13274289 (12.6 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0 
        TX packets 129798 bytes 13274289 (12.6 MiB) 
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
で表示されるIPアドレス ifconfig 物理ノード名と一致します。ただし、ノードがアクティブな場合は、このNICを介してクラスターIPにアクセスできます。両方のノードが同じNIC名を使用するように構成されていることを確認します。
  1. IPアドレスは、NetWorkerサーバーで使用される正しい(論理)ホスト名に解決されますか?
nslookup ip 

nslookup logical_name_FQDN 

nslookup logical_name_short
Example:
root@lnx-node1:~# nslookup 192.1xx.9.1x0 
110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. 

root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0 

root@lnx-node1:~# nslookup lnx-nwcluster 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0

また、物理ノードのIPアドレス、FQDN、短い名前に対しても同じ手順を実行することをお勧めします。Dellの記事「 NetWorker: 名前解決のトラブルシューティングのベスト プラクティス

  1. 次を使用してクラスターのIPアドレスにアクセスできますか? ping種類
ping -c 4 ip
Example:
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 
PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 
64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms 

--- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 
4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
IP(IPアドレス)リソースの開始に失敗した場合。これは、NetWorker以外の問題を示しています。クラスターのシステム管理者とネットワーク管理者と連携して、クラスターのネットワーク構成を確認し、問題が発生していないことを確認する必要があります。システムまたはそのデバイスの障害に関する追加のシステム ログを確認します。
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

その他のPCSコマンド:

操作: コマンド
ペースメーカーや pcs version:
pcs --version
ペースメーカーの概要
pcs status
ペースメーカー リソースの概要
pcs resource
クラスター内のパス所有権を決定します。
lcmap
リソースを有効化(開始)します。
pcs resource enable resource_name
Start pcs リソースとデバッグ。
pcs resource debug-start resource_name 
pcsリソースの構成設定を確認する
pcs resource config resource_name
リソースを無効化(停止)します。
pcs resource disable resource_name  
障害が発生したリソースを再起動します。
pcs resource cleanup resource_name
ノードでペースメーカーを停止します。
pcs stop cluster [--force]
ペースメーカーの起動
pcs cluster start [--all]
ノードをスタンバイにします。
pcs node standby node_name
ノードをスタンバイから外します。 
pcs node unstandby node_name

重要なログとファイル:

パス 目的 補助コマンド
/var/log/messages システム リソースとサービスに関するグローバル システム メッセージが含まれます。
grep 'pacemaker.*\(error\|warning\)' /var/log/messages
/var/log/pacemaker/pacemaker.log  ペースメーカーのリソースと機能に関するデフォルトのペースメーカー情報ログ。 なし
/var/log/pcsd/pcsd.log デフォルトのペースメーカーサービス/デーモン(pcsd) ログに記録します。  なし
/var/log/cluster/corosync.log デフォルトのペースメーカー ノード通信ログ。  なし
/usr/sbin/nw_hae.log NetWorker(nws)リソース開始ログ(以下で定義) /usr/lib/ocf/resource.d/EMC_NetWorker/Server なし
/usr/lib/ocf/resource.d/EMC_NetWorker/Server  NetWorkerペースメーカー構成ファイル。これは、PCによって実行/管理される操作です。 なし

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000218281
Article Type: How To
Last Modified: 22 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.