NetWorker: Troubleshooting-Handbuch für Red Hat Cluster Service-Problem
Summary: Dieser Artikel bietet eine Übersicht über die Vorgehensweise beim Starten von NetWorker-Services für NetWorker-Server, die auf Pacemaker-Clustern (PCs) bereitgestellt werden. Dieser Artikel richtet sich an NetWorker-Backupadministratoren und den NetWorker-Support, um das Troubleshooting dieser Probleme zu erleichtern. ...
Instructions
NetWorker-Server können in einer Cluster-Failover-Konfiguration auf Red Hat-Nodes mithilfe von pacemaker (pcs) Dienstleistungen. NetWorker ist auf mehreren Nodes installiert. Die Serverdatenbanken befinden sich im Shared Storage und werden basierend auf dem aktiven Node in der Pacemaker-Konfiguration zwischen Nodes übergeben. Der NetWorker-Server verwendet einen gemeinsamen Clusternamen und eine gemeinsame IP-Adresse, wodurch eine konsistente Benennung und Adressierung unabhängig vom Hosting-Node gewährleistet wird. Weitere Informationen zum Einrichten von NetWorker in einem Cluster finden Sie im NetWorker Cluster Integration Guide. Dieses Handbuch ist auf der Produktseite des Dell Supports verfügbar.
Clustertopologie:
In diesem Artikel wird ein Beispielcluster mit der folgenden Konfiguration verwendet:
NetWorker-Clustertopologie
|
Hostname
|
IP-Adresse
|
Funktion
|
|
lnx-node1.amer.lan
|
192.168.9.108
|
Physischer Node 1
|
|
lnx-node2.amer.lan
|
192.168.9.109
|
Physischer Node 2
|
|
lnx-nwcluster.amer.lan
|
192.168.9.110
|
Von NetWorker verwendeter logischer Name
|
Das Dateisystem auf den Nodes verwaltet NetWorker über symbolische Links.
Aktiver Node:
/nsr Zum gemeinsamen Speicherort:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx. 1 root root 14 Oct 5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x. 11 root root 116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x. 3 root root 17 Aug 31 17:23 nsr_share
Passiver Node:
/nsr an /nsr.NetWorker.localaus:
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx. 1 root root 20 Oct 3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x. 11 root root 116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x. 2 root root 6 Aug 31 17:18 nsr_share
Wenn sich ein Node in einem passiven Zustand befindet, wird die nsrexecd (NetWorker-Client) wird mit ausgeführt /nsr.NetWorker.local. Jeder physische Node verfügt über eine eigene Clientressource, die den auflösbaren Namen und die IP-Adresse des Domain Name System (DNS) des physischen Nodes verwendet. Der NetWorker-Server wird nur unter Verwendung des Shared Storage (/nsr_share) und verwendet die gemeinsam genutzte IP-Adresse und den gemeinsamen Hostnamen. Dieser kann jeweils nur auf einem Node aktiv sein.
Der folgende Herzschrittmacher (pcs) werden Befehle verwendet, um sich einen Überblick über die Pacemaker-Konfiguration und den Status zu verschaffen:
-
Clusterkonfiguration:
pcs status
root@lnx-node1:~# pcs status Cluster name: rhelclus Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) Cluster Summary: * Stack: corosync * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum * Last updated: Thu Oct 5 10:59:20 2023 * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan * 2 nodes configured * 3 resource instances configured Node List: * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] Full List of Resources: * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan Daemon Status: corosync: active/enabled pacemaker: active/enabled pcsd: active/enabled
fs), IP-Adresse der Clusterressource (ip) und die NetWorker-Services (nws). Die Ressourcennamen, die hier verwendet werden, sind die Standardeinstellungen, die im NetWorker Cluster Integration Guide verwendet werden. Es ist jedoch möglich, dass unterschiedliche Namen verwendet werden. Wenn Sie unterschiedliche Namen verwenden, notieren Sie sich die Ressourcennamen und ersetzen Sie sie nach Bedarf, wenn Sie die Anweisungen in diesem Artikel befolgen.
- Konfiguration der Pacemaker-Ressource:
pcs resource config
Beispiel:
root@lnx-node1:~# pcs resource config Group: NW_group Resource: fs (class=ocf provider=heartbeat type=Filesystem) Attributes: fs-instance_attributes device=/dev/sdb1 directory=/nsr_share fstype=xfs Operations: monitor: fs-monitor-interval-20 interval=20 timeout=300 start: fs-start-interval-0s interval=0s timeout=60s stop: fs-stop-interval-0s interval=0s timeout=60s Resource: ip (class=ocf provider=heartbeat type=IPaddr) Attributes: ip-instance_attributes cidr_netmask=24 ip=192.1xx.9.1x0 nic=ens192 Operations: monitor: ip-monitor-interval-15 interval=15 timeout=120 start: ip-start-interval-0s interval=0s timeout=20s stop: ip-stop-interval-0s interval=0s timeout=20s Resource: nws (class=ocf provider=EMC_NetWorker type=Server) Meta Attributes: nws-meta_attributes is-managed=true Operations: meta-data: nws-meta-data-interval-0 interval=0 timeout=10 migrate_from: nws-migrate_from-interval-0 interval=0 timeout=120 migrate_to: nws-migrate_to-interval-0 interval=0 timeout=60 monitor: nws-monitor-interval-100 interval=100 timeout=1200 start: nws-start-interval-0 interval=0 timeout=600 stop: nws-stop-interval-0 interval=0 timeout=600 validate-all: nws-validate-all-interval-0 interval=0 timeout=10
Der obige Befehl enthält Details zu jedem pcs Konfiguration der Ressourcen. Wichtige Dinge, die Sie beim ersten Überblick beachten sollten:
- FS-Ressource "device=": Dies ist das Gerät, das als Einhängepunkt für den gemeinsamen Speicher auf dem Node-Dateisystem verwendet wird. Dieses Gerät muss auf jedem Node identisch sein. Dies wird später in diesem Wissensdatenbank-Artikel erläutert.
- FS-Ressource "directory=": Dies ist das Verzeichnis, das der freigegebene NetWorker-Storage verwendet. Das Verzeichnis sollte als Einhängepunkt für das Feld "device=" zugeordnet werden. Dies wird später in diesem Wissensdatenbank-Artikel erläutert.
- IP-Ressource "ip=": Dies ist die IP-Adresse, die dem logischen (freigegebenen) Hostnamen zugeordnet ist, der vom NetWorker-Server verwendet wird. Diese IP-Adresse wird auf dem aktiven Node gehostet.
- Pacemaker-Sichtbarkeit der freigegebenen Adresse und des Speichers:
lcmap
Beispiel:
root@lnx-node1:~# lcmap type: NSR_CLU_TYPE; clu_type: NSR_LC_TYPE; interface version: 1.0; type: NSR_CLU_VIRTHOST; hostname: 192.168.9.110; local: TRUE; owned paths: /nsr_share; clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
pcs resource config "ip="-Feld. Die eigenen Pfade sollten mit den Pfaden pcs resource config "directory="-Feld. In einigen Fällen, wenn ein Startproblem beobachtet wird, wird das lcmap gibt nicht die Felder Hostname, lokale Pfade oder eigene Pfade zurück. Dies ist ein Hinweis auf ein Problem.
Erste Diagnose:
Wenn die NetWorker-Services nicht gestartet werden können, überprüfen Sie die pcs Ressourcenstatus, um festzustellen, welche Ressource fehlschlägt:
pcs status
root@lnx-node1:~# pcs status ... ... Node List: * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] Full List of Resources: * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan Daemon Status: corosync: active/enabled pacemaker: active/enabled pcsd: active/enabled
Wenn ein Fehler beobachtet wird, wird ein allgemeiner Fehler zurückgegeben. Die fehlgeschlagenen Ressourcen werden als FAILED angezeigt.
- FS (Dateisystem): Wenn sich das Dateisystem in einem fehlerhaften Zustand befindet, lesen Sie den folgenden Abschnitt zu Dateisystemfehlern.
- IP (IPaddr): Wenn sich IPaddr in einem fehlerhaften Zustand befindet, lesen Sie den folgenden Abschnitt zu IPaddr-Fehlern.
- NWS (Server): Wenn sich der NetWorker-Server in einem fehlerhaften Zustand befindet, führen Sie die folgenden Schritte aus:
- Überprüfen Sie die
daemon.rawFür alle Fehlermeldungen, die während des Startvorgangs angezeigt werden. Der Server/nsr_share/nsr/daemon.rawbefindet sich im Pfad Shared Storage. Der Client-Daemon für physische Nodes befindet sich im/nsr.NetWorker.local/logs/daemon.raw. Weitere Informationen finden Sie im Dell Artikel NetWorker: Verwenden von nsr_render_log - Wenn die Standardprotokollierung nicht ausreicht, aktivieren Sie das Debuggen wie folgt:
- Versuchen Sie, die Ressource "Server" neu zu starten:
pcs resource cleanup nws
- Verwenden Sie den Befehl
dbgcommandSo aktivieren Sie das Debuggen auf dernsrdProzess:
dbgcommand -n nsrd Debug=#
daemon.raw für alle zusätzlichen Nachrichten, die auf ein Problem verweisen können.
- Überprüfen Sie die
/var/log/pcsd/pcsd.logfür eventuelle Fehler. - Überprüfen Sie die
/var/log/pacemaker/pacemaker.logfür eventuelle Fehler. - Überprüfen Sie die
/var/log/messagesDatei für etwaige Fehler.
pcsd, Pacemaker und Meldungsprotokolle suchen nach Meldungen, die während derselben Zeitstempel protokolliert wurden, als die NetWorker-Services versuchten, gestartet zu werden. Überprüfen Sie auf Fehler oder Ausfälle, die mit dem Fehler beim Starten des Dienstes zusammenfallen.
Dateisystemfehler:
- Sieh dir die Pacemaker-Ressourcen an:
pcs resource
- Überprüfen Sie die Pacemaker-Ressourcenkonfiguration für die Dateisystemressource:
pcs resource fs
root@lnx-node1:~# pcs resource
* Resource Group: NW_group:
* fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
* ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
* nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
Attributes: fs-instance_attributes
device=/dev/sdb1
directory=/nsr_share
fstype=xfs
Operations:
monitor: fs-monitor-interval-20
interval=20
timeout=300
start: fs-start-interval-0s
interval=0s
timeout=60s
stop: fs-stop-interval-0s
interval=0s
timeout=60s
- Überprüfen Sie, ob das Gerät auf dem FS gemountet ist:
df -h
Beispiel:
root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1 94G 1.5G 92G 2% /nsr_share
- Überprüfen Sie, ob der Mount-Punkt korrekt konfiguriert ist. Zuordnen des Geräts zum Pfad:
lsblk
Beispiel:
root@lnx-node1:~# lsblk
NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
sda 8:0 0 40G 0 disk
├─sda1 8:1 0 600M 0 part /boot/efi
├─sda2 8:2 0 1G 0 part /boot
└─sda3 8:3 0 38.4G 0 part
├─rhel-root 253:0 0 34.4G 0 lvm /
└─rhel-swap 253:1 0 4G 0 lvm [SWAP]
sdb 8:16 0 100G 0 disk
└─sdb1 8:17 0 93.1G 0 part /nsr_share
sr0 11:0 1 1024M 0 rom
- Vergewissern Sie sich, dass das vom Gerät verwendete Dateisystem korrekt ist:
blkid
root@lnx-node1:~# blkid
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs"
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064"
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162"
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040"
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3"
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
/var/log/pcsd/pcsd.log/var/log/pacemaker/pacemaker.log/var/log/messages
IPaddr-Fehler:
- Sieh dir die Pacemaker-Ressourcen an:
pcs resource
- Überprüfen Sie die Pacemaker-Ressourcenkonfiguration für die Dateisystemressource:
pcs resource config ip
root@lnx-node1:~# pcs resource
* Resource Group: NW_group:
* fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
* ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
* nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
Attributes: ip-instance_attributes
cidr_netmask=24
ip=192.1xx.9.1x0
nic=ens192
Operations:
monitor: ip-monitor-interval-15
interval=15
timeout=120
start: ip-start-interval-0s
interval=0s
timeout=20s stop:
ip-stop-interval-0s
interval=0s
timeout=20s
- Überprüfen Sie, ob die NIC im System verfügbar ist:
ifconfig -a
root@lnx-node1:~# ifconfig -a
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
RX packets 953865 bytes 349705527 (333.5 MiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 1190983 bytes 179749786 (171.4 MiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
inet 127.0.0.1 netmask 255.0.0.0
inet6 ::1 prefixlen 128 scopeid 0x10<host>
loop txqueuelen 1000 (Local Loopback)
RX packets 129798 bytes 13274289 (12.6 MiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 129798 bytes 13274289 (12.6 MiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
Die IP-Adresse wird mit ifconfig entspricht dem Namen des physischen Nodes. Die geclusterte IP ist jedoch über diese NIC erreichbar, wenn der Node aktiv ist. Stellen Sie sicher, dass beide Nodes für die Verwendung derselben NIC-Namen konfiguriert sind.
- Wird die IP-Adresse in den richtigen (logischen) Hostnamen aufgelöst, der vom NetWorker-Server verwendet wird?
nslookup ip nslookup logical_name_FQDN nslookup logical_name_short
root@lnx-node1:~# nslookup 192.1xx.9.1x0 110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. Server: 192.1xx.9.1x0 Address: 192.1xx.9.100#53 Name: lnx-nwcluster.amer.lan Address: 192.1xx.9.1x0 root@lnx-node1:~# nslookup lnx-nwcluster Server: 192.1xx.9.1x0 Address: 192.1xx.9.100#53 Name: lnx-nwcluster.amer.lan Address: 192.1xx.9.1x0
Es wird auch empfohlen, die gleichen Schritte für die IP-Adresse, den FQDN und den Kurznamen des physischen Node durchzuführen. Weitere Informationen finden Sie im Dell Artikel NetWorker: Best Practices für das Troubleshooting bei der Namensauflösung.
- Erreichen Sie die IP-Adresse des Clusters mithilfe von
ping?
ping -c 4 ip
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms --- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
/var/log/pcsd/pcsd.log/var/log/pacemaker/pacemaker.log/var/log/messages
Andere PCS-Befehle:
| Operation | Befehl |
Herzschrittmacher oder pcs Version: |
|
| Pacemaker – Übersicht |
|
| Pacemaker-Ressourcenübersicht |
|
| Bestimmen Sie die Pfadeigentumsrechte in einem Cluster. |
|
| Ressource aktivieren (starten). |
|
Start pcs Ressource mit debug. |
|
| Überprüfen der Konfigurationseinstellungen für PC-Ressourcen |
|
| Deaktivieren (beenden) Sie die Ressource: |
|
| Neustart der fehlgeschlagenen Ressource. |
|
| Pacemaker auf Node beenden. |
|
| Pacemaker starten |
|
| Versetzen Sie den Node in den Stand-by-Modus. |
|
| Bringen Sie den Node aus dem Stand-by-Modus. |
|
Wichtige Protokolle und Dateien:
| Pfad | Zweck | Ergänzende Befehle |
/var/log/messages |
Enthält globale Systemmeldungen zu Systemressourcen und Services. |
|
/var/log/pacemaker/pacemaker.log |
Standardmäßige Pacemaker-Informationsprotokollierung für Pacemaker-Ressourcen und -Funktionen. | N. z. |
/var/log/pcsd/pcsd.log |
Standardmäßiger Pacemaker-Service/-Daemon (pcsd) protokollieren. |
N. z. |
/var/log/cluster/corosync.log |
Standardmäßiges Kommunikationsprotokoll des Pacemaker-Node. | N. z. |
/usr/sbin/nw_hae.log |
NetWorker (nws) Ressourcenstartprotokoll gemäß Definition in /usr/lib/ocf/resource.d/EMC_NetWorker/Server |
N. z. |
/usr/lib/ocf/resource.d/EMC_NetWorker/Server |
NetWorker-Pacemaker-Konfigurationsdatei. Dies sind die Vorgänge, die von PCs durchgeführt/verwaltet werden. | N. z. |