NetWorker：Red Hat Cluster Serviceの問題のトラブルシューティングガイド

Summary: この記事では、Red Hat Pacemaker (pcs)クラスターに導入されたNetWorkerサーバーで、NetWorkerサービス起動の問題に対処する方法の概要について説明します。この記事は、これらの問題のトラブルシューティングに役立つNetWorkerバックアップ管理者およびNetWorkerサポートに適しています。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

NetWorkerサーバーは、ペースメーカー(pcs)サービス。NetWorkerは複数のノードにインストールされます。サーバーデータベースは共有ストレージ上にあり、ペースメーカー構成のアクティブノードに基づいてノード間で渡されます。NetWorkerサーバーは共有クラスター名とIPアドレスを使用して、ホスティングノードに関係なく、一貫したネーミングとアドレス指定を保証します。クラスターでNetWorkerをセットアップする方法の詳細については、『NetWorkerクラスター統合ガイド』を参照してください。このガイドは、Dellサポートの製品ページで入手できます。

クラスタートポロジー:

この記事では、次の構成のクラスターの例を使用します。

NetWorkerクラスタートポロジー

ホスト名	IP アドレス	機能
lnx-node1.amer.lan	192.168.9.108	物理ノード1
lnx-node2.amer.lan	192.168.9.109	物理ノード2
lnx-nwcluster.amer.lan	192.168.9.110	NetWorkerで使用される論理名

ノード上のファイルシステムは、シンボリックリンクを使用してNetWorkerを管理します。

アクティブノード:

NetWorkerサーバがシンボリックリンクで起動されるアクティブノード /nsr 共有ストレージの場所に移動します。

root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     14 Oct  5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x.  11 root root    116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x.   3 root root     17 Aug 31 17:23 nsr_share

パッシブノード:

「パッシブ」ノードは、シンボリックにリンクします /nsr の出力を /nsr.NetWorker.localが使用するJava Runtime Environmentへのパスを定義します。

root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     20 Oct  3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x.  11 root root    116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x.   2 root root      6 Aug 31 17:18 nsr_share

ノードがパッシブ状態の場合、 nsrexecd (NetWorkerクライアント)ソフトウェアは次を使用して実行されています /nsr.NetWorker.localの詳細を確認してください。各物理ノードには、物理ノードのDNS(ドメインネームシステム)で解決可能な名前とIPアドレスを使用する独自のクライアントリソースがあります。NetWorkerサーバーは、共有ストレージ(/nsr_share)に使用され、共有 IP アドレスとホスト名が使用されます。これは、一度に1つのノードでのみアクティブにできます。

次のペースメーカー(pcs)コマンドは、ペースメーカーの構成とステータスの概要を取得するために使用されます。

クラスター構成:

pcs status

Example:

root@lnx-node1:~# pcs status 
Cluster name: rhelclus 
Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) 
Cluster Summary: 
  * Stack: corosync 
  * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum 
  * Last updated: Thu Oct 5 10:59:20 2023 
  * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan 
  * 2 nodes configured 
  * 3 resource instances configured 

Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan 
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan 
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

上記の出力から、クラスター内のノードの数と、オフラインまたはスタンバイステータスのノードがあるかどうかを確認できます。出力には、共有ファイルシステムをホストしているノードも表示されます(fs)、クラスターリソースのIPアドレス(ip)、NetWorkerサービス(nws)を使用するシステムで一般的に行われる、繰り返しのプログラムおよび消去サイクルによって劣化しやすい傾向があります。ここで使用するリソース名は、『NetWorkerクラスター統合ガイド』で使用されるデフォルト名です。ただし、異なる名前が使用されている可能性があります。別の名前を使用している場合は、リソース名をメモしておき、この記事の手順に従うときに必要に応じて置き換えてください。

Pacemaker リソースの構成:

pcs resource config

Example:

root@lnx-node1:~# pcs resource config 
Group: NW_group 
  Resource: fs (class=ocf provider=heartbeat type=Filesystem)
    Attributes: fs-instance_attributes 
      device=/dev/sdb1 
      directory=/nsr_share 
      fstype=xfs 
    Operations: 
      monitor: fs-monitor-interval-20 
        interval=20 
        timeout=300 
      start: fs-start-interval-0s 
        interval=0s 
        timeout=60s 
      stop: fs-stop-interval-0s interval=0s timeout=60s 
  Resource: ip (class=ocf provider=heartbeat type=IPaddr) 
    Attributes: ip-instance_attributes 
      cidr_netmask=24 
      ip=192.1xx.9.1x0 
      nic=ens192 
    Operations: 
      monitor: ip-monitor-interval-15 
        interval=15 
        timeout=120 
      start: ip-start-interval-0s 
        interval=0s 
        timeout=20s 
      stop: ip-stop-interval-0s 
        interval=0s 
        timeout=20s 
  Resource: nws (class=ocf provider=EMC_NetWorker type=Server) 
    Meta Attributes: nws-meta_attributes 
      is-managed=true 
    Operations: 
      meta-data: nws-meta-data-interval-0 
        interval=0 
        timeout=10 
      migrate_from: nws-migrate_from-interval-0 
        interval=0 
        timeout=120
      migrate_to: nws-migrate_to-interval-0 
        interval=0 
        timeout=60 
      monitor: nws-monitor-interval-100 
        interval=100 
        timeout=1200 
      start: nws-start-interval-0 
        interval=0 
        timeout=600 
      stop: nws-stop-interval-0 
        interval=0 
        timeout=600 
      validate-all: nws-validate-all-interval-0 
        interval=0 
        timeout=10

上記のコマンドでは、各詳細が説明されています pcs リソースの構成。最初の概要で注意すべき重要事項:

FSリソース「device=」: これは、ノードファイルシステム上の共有ストレージのマウントポイントとして使用されるデバイスです。このデバイスは、各ノードで同じである必要があります。これについては、このKBで後ほど説明します。
FSリソース「directory=」: これは、共有NetWorkerストレージが使用するディレクトリです。ディレクトリーは、「device=」フィールドのマウントポイントとして関連づける必要があります。これについては、このKBで後ほど説明します。
IPリソース「ip=」: これは、NetWorkerサーバーによって使用される論理(共有)ホスト名に関連づけられているIPアドレスです。このIPアドレスは、アクティブノードでホストされます。

共有アドレスとストレージのペースメーカーの可視性:

lcmap

Example:

root@lnx-node1:~# lcmap
type: NSR_CLU_TYPE;
clu_type: NSR_LC_TYPE;
interface version: 1.0;

type: NSR_CLU_VIRTHOST;
hostname: 192.168.9.110;
local: TRUE;
owned paths: /nsr_share;

clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;

メモ: ホスト名は、 pcs resource config 「ip=」フィールド。所有するパスは、次のものと一致する必要があります。 pcs resource config "directory="フィールド。場合によっては、起動の問題が発生すると、 lcmap コマンドは、ホスト名、ローカル、または所有パスフィールドを返しません。これは問題を示しています。

初期診断:

NetWorkerサービスの開始に失敗した場合は、 pcs リソースステータスを使用して、障害が発生しているリソースを確認します。

pcs status

Example:

root@lnx-node1:~# pcs status 
... 
... 
Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs    (ocf::heartbeat:Filesystem):   Started lnx-node1.amer.lan 
    * ip    (ocf::heartbeat:IPaddr):       Started lnx-node1.amer.lan 
    * nws   (ocf::EMC_NetWorker:Server):   Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

障害が発生した場合は、一般的な障害エラーが返されます。失敗したリソースはFAILEDと表示されます。

FS(ファイルシステム): ファイルシステムが障害状態の場合は、次の ファイルシステムの障害に関するセクションを参照してください。
IP(IPアドレス): IPaddrが障害状態の場合は、次の「IPアドレスの障害」に関するセクションを参照してください。
NWS(サーバー): NetWorkerサーバーが障害状態の場合は、次の手順を実行します。

NetWorkerサーバーの daemon.raw 起動中に表示されるエラーメッセージ。サーバーの /nsr_share/nsr/daemon.raw は、共有ストレージパスにあります。物理ノードクライアントデーモンは、 /nsr.NetWorker.local/logs/daemon.rawの詳細を確認してください。Dellの記事「NetWorker: nsr_render_logの使用方法（英語）」を参照してください。
デフォルトのログ記録が十分でない場合は、次の方法でデバッグを有効にします。
1. 「Server」リソースの再起動を試みます。

pcs resource cleanup nws

コマンド dbgcommand でデバッグを有効にするには、 nsrd 過程：

dbgcommand -n nsrd Debug=#

1 から 9 までの番号を使用してデバッグレベルを設定します。の監視 daemon.raw 問題に誘導する可能性のある追加のメッセージ。

サポートされているドライバおよびファームウェアについては /var/log/pcsd/pcsd.log エラーがないか。
サポートされているドライバおよびファームウェアについては /var/log/pacemaker/pacemaker.log エラーがないか。
サポートされているドライバおよびファームウェアについては /var/log/messages ファイルでエラーがないか確認します。

メモ: レビュー時 pcsd、ペースメーカー、メッセージログでは、NetWorkerサービスの開始が試行されたのと同じタイムスタンプでログに記録されたメッセージを探します。サービス起動の失敗と一致するエラーまたは障害を確認します。

ファイルシステムの障害:

ペースメーカーのリソースを確認します。

pcs resource

ファイルシステムリソースのペースメーカーリソース構成を確認します。

pcs resource fs

Example:

デバイスパス、ディレクトリーパス、fstypeをメモしておきます。

root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started lnx-node1.amer.lan
    * ip        (ocf::heartbeat:IPaddr):         Started lnx-node1.amer.lan
    * nws       (ocf::EMC_NetWorker:Server):     Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
  Attributes: fs-instance_attributes
    device=/dev/sdb1
    directory=/nsr_share
    fstype=xfs
  Operations:
    monitor: fs-monitor-interval-20
      interval=20
      timeout=300
    start: fs-start-interval-0s
      interval=0s
      timeout=60s
    stop: fs-stop-interval-0s
      interval=0s
      timeout=60s

デバイスがFSにマウントされているかどうかを確認します。

df -h

Example:

root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1                                     94G  1.5G   92G   2% /nsr_share

マウントポイントが正しく構成されているかどうかを確認します。デバイスとパスの関連づけ:

lsblk

Example:

root@lnx-node1:~# lsblk
NAME          MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda             8:0    0   40G  0 disk
├─sda1          8:1    0  600M  0 part /boot/efi
├─sda2          8:2    0    1G  0 part /boot
└─sda3          8:3    0 38.4G  0 part
  ├─rhel-root 253:0    0 34.4G  0 lvm  /
  └─rhel-swap 253:1    0    4G  0 lvm  [SWAP]
sdb             8:16   0  100G  0 disk
└─sdb1          8:17   0 93.1G  0 part /nsr_share
sr0            11:0    1 1024M  0 rom

デバイスで使用されているファイルシステムが正しいことを確認します。

blkid

Example:

root@lnx-node1:~# blkid 
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs" 
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064" 
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162" 
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040" 
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3" 
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"

fs(ファイルシステム)リソースの起動に失敗した場合。これは、NetWorker以外の問題を示しています。システム管理者は、クラスターのファイルシステム構成を確認し、pacemaker で使用される共有ストレージに問題がないことを確認する必要があります。システムまたはそのデバイスの障害に関する追加のシステムログを確認します。

/var/log/pcsd/pcsd.log
/var/log/pacemaker/pacemaker.log
/var/log/messages

IPアドレス障害:

ペースメーカーのリソースを確認します。

pcs resource

ファイルシステムリソースのペースメーカーリソース構成を確認します。

pcs resource config ip

Example:

IPアドレスとネットワークインターフェイスカード(NIC)をメモしておきます。

root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
  Attributes: ip-instance_attributes
    cidr_netmask=24
    ip=192.1xx.9.1x0
    nic=ens192
  Operations:
    monitor: ip-monitor-interval-15
      interval=15
      timeout=120
    start: ip-start-interval-0s
      interval=0s
      timeout=20s stop:
    ip-stop-interval-0s
      interval=0s
      timeout=20s

NICがシステムで使用可能かどうかを確認します。

ifconfig -a

Example:

root@lnx-node1:~# ifconfig -a 
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
        inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
        inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
        ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
        RX packets 953865 bytes 349705527 (333.5 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0
        TX packets 1190983 bytes 179749786 (171.4 MiB)
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0 
        inet6 ::1 prefixlen 128 scopeid 0x10<host>
        loop txqueuelen 1000 (Local Loopback)
        RX packets 129798 bytes 13274289 (12.6 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0 
        TX packets 129798 bytes 13274289 (12.6 MiB) 
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0

で表示されるIPアドレス ifconfig 物理ノード名と一致します。ただし、ノードがアクティブな場合は、このNICを介してクラスターIPにアクセスできます。両方のノードが同じNIC名を使用するように構成されていることを確認します。

IPアドレスは、NetWorkerサーバーで使用される正しい(論理)ホスト名に解決されますか?

nslookup ip 

nslookup logical_name_FQDN 

nslookup logical_name_short

Example:

root@lnx-node1:~# nslookup 192.1xx.9.1x0 
110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. 

root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0 

root@lnx-node1:~# nslookup lnx-nwcluster 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0

また、物理ノードのIPアドレス、FQDN、短い名前に対しても同じ手順を実行することをお勧めします。Dellの記事「 NetWorker: 名前解決のトラブルシューティングのベストプラクティス。

次を使用してクラスターのIPアドレスにアクセスできますか? ping種類

ping -c 4 ip

Example:

root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 
PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 
64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms 

--- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 
4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms

IP(IPアドレス)リソースの開始に失敗した場合。これは、NetWorker以外の問題を示しています。クラスターのシステム管理者とネットワーク管理者と連携して、クラスターのネットワーク構成を確認し、問題が発生していないことを確認する必要があります。システムまたはそのデバイスの障害に関する追加のシステムログを確認します。

/var/log/pcsd/pcsd.log
/var/log/pacemaker/pacemaker.log
/var/log/messages

その他のPCSコマンド:

操作：	コマンド
ペースメーカーや `pcs` version:	`pcs --version`
ペースメーカーの概要	`pcs status`
ペースメーカーリソースの概要	`pcs resource`
クラスター内のパス所有権を決定します。	`lcmap`
リソースを有効化(開始)します。	`pcs resource enable resource_name`
Start `pcs` リソースとデバッグ。	`pcs resource debug-start resource_name`
pcsリソースの構成設定を確認する	`pcs resource config resource_name`
リソースを無効化(停止)します。	`pcs resource disable resource_name`
障害が発生したリソースを再起動します。	`pcs resource cleanup resource_name`
ノードでペースメーカーを停止します。	`pcs stop cluster [--force]`
ペースメーカーの起動	`pcs cluster start [--all]`
ノードをスタンバイにします。	`pcs node standby node_name`
ノードをスタンバイから外します。	`pcs node unstandby node_name`

重要なログとファイル:

パス	目的	補助コマンド
`/var/log/messages`	システムリソースとサービスに関するグローバルシステムメッセージが含まれます。	`grep 'pacemaker.*\(error\\|warning\)' /var/log/messages`
`/var/log/pacemaker/pacemaker.log`	ペースメーカーのリソースと機能に関するデフォルトのペースメーカー情報ログ。	なし
`/var/log/pcsd/pcsd.log`	デフォルトのペースメーカーサービス/デーモン(`pcsd`) ログに記録します。	なし
`/var/log/cluster/corosync.log`	デフォルトのペースメーカーノード通信ログ。	なし
`/usr/sbin/nw_hae.log`	NetWorker(`nws`)リソース開始ログ(以下で定義) `/usr/lib/ocf/resource.d/EMC_NetWorker/Server`	なし
`/usr/lib/ocf/resource.d/EMC_NetWorker/Server`	NetWorkerペースメーカー構成ファイル。これは、PCによって実行/管理される操作です。	なし

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series

Article Number: 000218281

Article Type: How To

Last Modified: 22 Oct 2025

Version: 6

Check if your device is covered by Support Services.

NetWorker：Red Hat Cluster Serviceの問題のトラブルシューティングガイド

Instructions

クラスタートポロジー:

この記事では、次の構成のクラスターの例を使用します。

NetWorkerクラスタートポロジー

ノード上のファイルシステムは、シンボリックリンクを使用してNetWorkerを管理します。

アクティブノード:

パッシブノード:

クラスター構成:

初期診断:

ファイルシステムの障害:

IPアドレス障害:

その他のPCSコマンド:

重要なログとファイル:

Affected Products

Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

NetWorker：Red Hat Cluster Serviceの問題のトラブルシューティング ガイド

Detailed Article

Instructions

Affected Products

Instructions

クラスター トポロジー:

この記事では、次の構成のクラスターの例を使用します。NetWorkerクラスター トポロジー

ノード上のファイル システムは、シンボリック リンクを使用してNetWorkerを管理します。アクティブ ノード:

パッシブ ノード:

クラスター構成:

初期診断:

ファイルシステムの障害:

IPアドレス障害:

その他のPCSコマンド:

重要なログとファイル:

Affected Products

Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

NetWorker：Red Hat Cluster Serviceの問題のトラブルシューティングガイド

クラスタートポロジー:

この記事では、次の構成のクラスターの例を使用します。

NetWorkerクラスタートポロジー

ノード上のファイルシステムは、シンボリックリンクを使用してNetWorkerを管理します。

アクティブノード:

パッシブノード: