NetWorker:Red Hat Cluster Serviceの問題のトラブルシューティング ガイド
Summary: この記事では、Red Hat Pacemaker (pcs)クラスターに導入されたNetWorkerサーバーで、NetWorkerサービス起動の問題に対処する方法の概要について説明します。この記事は、これらの問題のトラブルシューティングに役立つNetWorkerバックアップ管理者およびNetWorkerサポートに適しています。
Instructions
NetWorkerサーバーは、ペースメーカー(pcs)サービス。NetWorkerは複数のノードにインストールされます。サーバー データベースは共有ストレージ上にあり、ペースメーカー構成のアクティブ ノードに基づいてノード間で渡されます。NetWorkerサーバーは共有クラスター名とIPアドレスを使用して、ホスティング ノードに関係なく、一貫したネーミングとアドレス指定を保証します。クラスターでNetWorkerをセットアップする方法の詳細については、『NetWorkerクラスター統合ガイド』を参照してください。このガイドは、Dellサポートの製品ページで入手できます。
クラスター トポロジー:
この記事では、次の構成のクラスターの例を使用します。
NetWorkerクラスター トポロジー
|
ホスト名
|
IP アドレス
|
機能
|
|
lnx-node1.amer.lan
|
192.168.9.108
|
物理ノード1
|
|
lnx-node2.amer.lan
|
192.168.9.109
|
物理ノード2
|
|
lnx-nwcluster.amer.lan
|
192.168.9.110
|
NetWorkerで使用される論理名
|
ノード上のファイル システムは、シンボリック リンクを使用してNetWorkerを管理します。
アクティブ ノード:
/nsr 共有ストレージの場所に移動します。
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx. 1 root root 14 Oct 5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x. 11 root root 116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x. 3 root root 17 Aug 31 17:23 nsr_share
パッシブ ノード:
/nsr の出力を /nsr.NetWorker.localが使用するJava Runtime Environmentへのパスを定義します。
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx. 1 root root 20 Oct 3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x. 11 root root 116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x. 2 root root 6 Aug 31 17:18 nsr_share
ノードがパッシブ状態の場合、 nsrexecd (NetWorkerクライアント)ソフトウェアは次を使用して実行されています /nsr.NetWorker.localの詳細を確認してください。各物理ノードには、物理ノードのDNS(ドメイン ネーム システム)で解決可能な名前とIPアドレスを使用する独自のクライアント リソースがあります。NetWorkerサーバーは、共有ストレージ(/nsr_share)に使用され、共有 IP アドレスとホスト名が使用されます。これは、一度に1つのノードでのみアクティブにできます。
次のペースメーカー(pcs)コマンドは、ペースメーカーの構成とステータスの概要を取得するために使用されます。
-
クラスター構成:
pcs status
root@lnx-node1:~# pcs status Cluster name: rhelclus Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) Cluster Summary: * Stack: corosync * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum * Last updated: Thu Oct 5 10:59:20 2023 * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan * 2 nodes configured * 3 resource instances configured Node List: * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] Full List of Resources: * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan Daemon Status: corosync: active/enabled pacemaker: active/enabled pcsd: active/enabled
fs)、クラスター リソースのIPアドレス(ip)、NetWorkerサービス(nws)を使用するシステムで一般的に行われる、繰り返しのプログラムおよび消去サイクルによって劣化しやすい傾向があります。ここで使用するリソース名は、『NetWorkerクラスター統合ガイド』で使用されるデフォルト名です。ただし、異なる名前が使用されている可能性があります。別の名前を使用している場合は、リソース名をメモしておき、この記事の手順に従うときに必要に応じて置き換えてください。
- Pacemaker リソースの構成:
pcs resource config
Example:
root@lnx-node1:~# pcs resource config Group: NW_group Resource: fs (class=ocf provider=heartbeat type=Filesystem) Attributes: fs-instance_attributes device=/dev/sdb1 directory=/nsr_share fstype=xfs Operations: monitor: fs-monitor-interval-20 interval=20 timeout=300 start: fs-start-interval-0s interval=0s timeout=60s stop: fs-stop-interval-0s interval=0s timeout=60s Resource: ip (class=ocf provider=heartbeat type=IPaddr) Attributes: ip-instance_attributes cidr_netmask=24 ip=192.1xx.9.1x0 nic=ens192 Operations: monitor: ip-monitor-interval-15 interval=15 timeout=120 start: ip-start-interval-0s interval=0s timeout=20s stop: ip-stop-interval-0s interval=0s timeout=20s Resource: nws (class=ocf provider=EMC_NetWorker type=Server) Meta Attributes: nws-meta_attributes is-managed=true Operations: meta-data: nws-meta-data-interval-0 interval=0 timeout=10 migrate_from: nws-migrate_from-interval-0 interval=0 timeout=120 migrate_to: nws-migrate_to-interval-0 interval=0 timeout=60 monitor: nws-monitor-interval-100 interval=100 timeout=1200 start: nws-start-interval-0 interval=0 timeout=600 stop: nws-stop-interval-0 interval=0 timeout=600 validate-all: nws-validate-all-interval-0 interval=0 timeout=10
上記のコマンドでは、各詳細が説明されています pcs リソースの構成。最初の概要で注意すべき重要事項:
- FSリソース「device=」: これは、ノード ファイル システム上の共有ストレージのマウントポイントとして使用されるデバイスです。このデバイスは、各ノードで同じである必要があります。これについては、このKBで後ほど説明します。
- FSリソース「directory=」: これは、共有NetWorkerストレージが使用するディレクトリです。ディレクトリーは、「device=」フィールドのマウントポイントとして関連づける必要があります。これについては、このKBで後ほど説明します。
- IPリソース「ip=」: これは、NetWorkerサーバーによって使用される論理(共有)ホスト名に関連づけられているIPアドレスです。このIPアドレスは、アクティブ ノードでホストされます。
- 共有アドレスとストレージのペースメーカーの可視性:
lcmap
Example:
root@lnx-node1:~# lcmap type: NSR_CLU_TYPE; clu_type: NSR_LC_TYPE; interface version: 1.0; type: NSR_CLU_VIRTHOST; hostname: 192.168.9.110; local: TRUE; owned paths: /nsr_share; clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
pcs resource config 「ip=」フィールド。所有するパスは、次のものと一致する必要があります。 pcs resource config "directory="フィールド。場合によっては、起動の問題が発生すると、 lcmap コマンドは、ホスト名、ローカル、または所有パスフィールドを返しません。これは問題を示しています。
初期診断:
NetWorkerサービスの開始に失敗した場合は、 pcs リソース ステータスを使用して、障害が発生しているリソースを確認します。
pcs status
root@lnx-node1:~# pcs status ... ... Node List: * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] Full List of Resources: * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan Daemon Status: corosync: active/enabled pacemaker: active/enabled pcsd: active/enabled
障害が発生した場合は、一般的な障害エラーが返されます。失敗したリソースはFAILEDと表示されます。
- FS(ファイルシステム): ファイルシステムが障害状態の場合は、次の ファイル システムの障害に関するセクションを参照してください。
- IP(IPアドレス): IPaddrが障害状態の場合は、次の「IPアドレスの障害」に関するセクションを参照してください。
- NWS(サーバー): NetWorkerサーバーが障害状態の場合は、次の手順を実行します。
- NetWorkerサーバーの
daemon.raw起動中に表示されるエラーメッセージ。サーバーの/nsr_share/nsr/daemon.rawは、共有ストレージ パスにあります。物理ノード クライアント デーモンは、/nsr.NetWorker.local/logs/daemon.rawの詳細を確認してください。Dellの記事「NetWorker: nsr_render_logの使用方法(英語)」を参照してください。 - デフォルトのログ記録が十分でない場合は、次の方法でデバッグを有効にします。
- 「Server」リソースの再起動を試みます。
pcs resource cleanup nws
- コマンド
dbgcommandでデバッグを有効にするには、nsrd過程:
dbgcommand -n nsrd Debug=#
daemon.raw 問題に誘導する可能性のある追加のメッセージ。
- サポートされているドライバおよびファームウェアについては
/var/log/pcsd/pcsd.logエラーがないか。 - サポートされているドライバおよびファームウェアについては
/var/log/pacemaker/pacemaker.logエラーがないか。 - サポートされているドライバおよびファームウェアについては
/var/log/messagesファイルでエラーがないか確認します。
pcsd、ペースメーカー、メッセージ ログでは、NetWorkerサービスの開始が試行されたのと同じタイムスタンプでログに記録されたメッセージを探します。サービス起動の失敗と一致するエラーまたは障害を確認します。
ファイルシステムの障害:
- ペースメーカーのリソースを確認します。
pcs resource
- ファイルシステム リソースのペースメーカー リソース構成を確認します。
pcs resource fs
root@lnx-node1:~# pcs resource
* Resource Group: NW_group:
* fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
* ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
* nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
Attributes: fs-instance_attributes
device=/dev/sdb1
directory=/nsr_share
fstype=xfs
Operations:
monitor: fs-monitor-interval-20
interval=20
timeout=300
start: fs-start-interval-0s
interval=0s
timeout=60s
stop: fs-stop-interval-0s
interval=0s
timeout=60s
- デバイスがFSにマウントされているかどうかを確認します。
df -h
Example:
root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1 94G 1.5G 92G 2% /nsr_share
- マウントポイントが正しく構成されているかどうかを確認します。デバイスとパスの関連づけ:
lsblk
Example:
root@lnx-node1:~# lsblk
NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
sda 8:0 0 40G 0 disk
├─sda1 8:1 0 600M 0 part /boot/efi
├─sda2 8:2 0 1G 0 part /boot
└─sda3 8:3 0 38.4G 0 part
├─rhel-root 253:0 0 34.4G 0 lvm /
└─rhel-swap 253:1 0 4G 0 lvm [SWAP]
sdb 8:16 0 100G 0 disk
└─sdb1 8:17 0 93.1G 0 part /nsr_share
sr0 11:0 1 1024M 0 rom
- デバイスで使用されているファイル システムが正しいことを確認します。
blkid
root@lnx-node1:~# blkid
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs"
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064"
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162"
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040"
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3"
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
/var/log/pcsd/pcsd.log/var/log/pacemaker/pacemaker.log/var/log/messages
IPアドレス障害:
- ペースメーカーのリソースを確認します。
pcs resource
- ファイルシステム リソースのペースメーカー リソース構成を確認します。
pcs resource config ip
root@lnx-node1:~# pcs resource
* Resource Group: NW_group:
* fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
* ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
* nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
Attributes: ip-instance_attributes
cidr_netmask=24
ip=192.1xx.9.1x0
nic=ens192
Operations:
monitor: ip-monitor-interval-15
interval=15
timeout=120
start: ip-start-interval-0s
interval=0s
timeout=20s stop:
ip-stop-interval-0s
interval=0s
timeout=20s
- NICがシステムで使用可能かどうかを確認します。
ifconfig -a
root@lnx-node1:~# ifconfig -a
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
RX packets 953865 bytes 349705527 (333.5 MiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 1190983 bytes 179749786 (171.4 MiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
inet 127.0.0.1 netmask 255.0.0.0
inet6 ::1 prefixlen 128 scopeid 0x10<host>
loop txqueuelen 1000 (Local Loopback)
RX packets 129798 bytes 13274289 (12.6 MiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 129798 bytes 13274289 (12.6 MiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
で表示されるIPアドレス ifconfig 物理ノード名と一致します。ただし、ノードがアクティブな場合は、このNICを介してクラスターIPにアクセスできます。両方のノードが同じNIC名を使用するように構成されていることを確認します。
- IPアドレスは、NetWorkerサーバーで使用される正しい(論理)ホスト名に解決されますか?
nslookup ip nslookup logical_name_FQDN nslookup logical_name_short
root@lnx-node1:~# nslookup 192.1xx.9.1x0 110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. Server: 192.1xx.9.1x0 Address: 192.1xx.9.100#53 Name: lnx-nwcluster.amer.lan Address: 192.1xx.9.1x0 root@lnx-node1:~# nslookup lnx-nwcluster Server: 192.1xx.9.1x0 Address: 192.1xx.9.100#53 Name: lnx-nwcluster.amer.lan Address: 192.1xx.9.1x0
また、物理ノードのIPアドレス、FQDN、短い名前に対しても同じ手順を実行することをお勧めします。Dellの記事「 NetWorker: 名前解決のトラブルシューティングのベスト プラクティス。
- 次を使用してクラスターのIPアドレスにアクセスできますか?
ping種類
ping -c 4 ip
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms --- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
/var/log/pcsd/pcsd.log/var/log/pacemaker/pacemaker.log/var/log/messages
その他のPCSコマンド:
| 操作: | コマンド |
ペースメーカーや pcs version: |
|
| ペースメーカーの概要 |
|
| ペースメーカー リソースの概要 |
|
| クラスター内のパス所有権を決定します。 |
|
| リソースを有効化(開始)します。 |
|
Start pcs リソースとデバッグ。 |
|
| pcsリソースの構成設定を確認する |
|
| リソースを無効化(停止)します。 |
|
| 障害が発生したリソースを再起動します。 |
|
| ノードでペースメーカーを停止します。 |
|
| ペースメーカーの起動 |
|
| ノードをスタンバイにします。 |
|
| ノードをスタンバイから外します。 |
|
重要なログとファイル:
| パス | 目的 | 補助コマンド |
/var/log/messages |
システム リソースとサービスに関するグローバル システム メッセージが含まれます。 |
|
/var/log/pacemaker/pacemaker.log |
ペースメーカーのリソースと機能に関するデフォルトのペースメーカー情報ログ。 | なし |
/var/log/pcsd/pcsd.log |
デフォルトのペースメーカーサービス/デーモン(pcsd) ログに記録します。 |
なし |
/var/log/cluster/corosync.log |
デフォルトのペースメーカー ノード通信ログ。 | なし |
/usr/sbin/nw_hae.log |
NetWorker(nws)リソース開始ログ(以下で定義) /usr/lib/ocf/resource.d/EMC_NetWorker/Server |
なし |
/usr/lib/ocf/resource.d/EMC_NetWorker/Server |
NetWorkerペースメーカー構成ファイル。これは、PCによって実行/管理される操作です。 | なし |