NetWorker: Probleemoplossingsgids voor een serviceprobleem met Red Hat Cluster
Summary: In dit artikel vindt u een overzicht van het aanpakken van opstartproblemen met de NetWorker service voor NetWorker servers die zijn geïmplementeerd op Red Hat pacemakerclusters (pc's). Dit artikel is bedoeld voor NetWorker back-upbeheerders en NetWorker support om te helpen bij het oplossen van deze problemen. ...
Instructions
NetWorker-servers kunnen worden geïmplementeerd in een clusterfailoverconfiguratie op Red Hat-knooppunten met behulp van een pacemaker (pcs) diensten. NetWorker is op meerdere knooppunten geïnstalleerd. De serverdatabases bevinden zich op gedeelde opslag en worden doorgegeven tussen knooppunten op basis van het actieve knooppunt in de pacemakerconfiguratie. De NetWorker-server maakt gebruik van een gedeelde clusternaam en een gedeeld IP-adres, zodat een consistente naamgeving en adressering wordt gewaarborgd, ongeacht het hostingknooppunt. Raadpleeg de NetWorker Cluster Integration Guide voor meer informatie over het instellen van NetWorker in een cluster. Deze handleiding is beschikbaar op de Dell Support productpagina.
Clustertopologie:
In dit artikel wordt een voorbeeldcluster gebruikt met de volgende configuratie:
NetWorker clustertopologie
|
Hostnaam
|
IP-adres
|
Functie
|
|
lnx-node1.amer.lan
|
192.168.9.108
|
Fysiek knooppunt 1
|
|
lnx-node2.amer.lan
|
192.168.9.109
|
Fysiek knooppunt 2
|
|
lnx-nwcluster.amer.lan
|
192.168.9.110
|
Logische naam gebruikt door NetWorker
|
Het bestandssysteem op de knooppunten beheert NetWorker met behulp van symbolische koppelingen.
Actief knooppunt:
/nsr Naar de gedeelde opslaglocatie:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx. 1 root root 14 Oct 5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x. 11 root root 116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x. 3 root root 17 Aug 31 17:23 nsr_share
Passief knooppunt:
/nsr Aan /nsr.NetWorker.local:
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx. 1 root root 20 Oct 3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x. 11 root root 116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x. 2 root root 6 Aug 31 17:18 nsr_share
Wanneer een knooppunt zich in een passieve status bevindt, wordt het nsrexecd (NetWorker client) software wordt uitgevoerd met behulp van /nsr.NetWorker.local. Elk fysiek knooppunt heeft zijn eigen clientresource met behulp van de oplosbare naam en het IP-adres van het fysieke knooppunt via het Domain Name System (DNS). De NetWorker-server wordt alleen uitgevoerd met behulp van de gedeelde storage (/nsr_share) en gebruikt het gedeelde IP-adres en de hostnaam. Dit kan slechts op één knooppunt tegelijk actief zijn.
De volgende pacemaker (pcs) commando's worden gebruikt om een overzicht te krijgen van de configuratie en status van de pacemaker:
-
Clusterconfiguratie:
pcs status
root@lnx-node1:~# pcs status Cluster name: rhelclus Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) Cluster Summary: * Stack: corosync * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum * Last updated: Thu Oct 5 10:59:20 2023 * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan * 2 nodes configured * 3 resource instances configured Node List: * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] Full List of Resources: * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan Daemon Status: corosync: active/enabled pacemaker: active/enabled pcsd: active/enabled
fs), IP-adres van de clusterbron (ip) en de NetWorker-services (nws). De resourcenamen die hier worden gebruikt, zijn de standaardwaarden die worden gebruikt in de NetWorker Cluster Integration Guide; Het is echter mogelijk dat er verschillende namen worden gebruikt. Als u verschillende namen gebruikt, noteer dan de bronnamen en vervang deze indien nodig wanneer u de instructies in dit artikel volgt.
- Configuratie van pacemakerbronnen:
pcs resource config
Voorbeeld:
root@lnx-node1:~# pcs resource config Group: NW_group Resource: fs (class=ocf provider=heartbeat type=Filesystem) Attributes: fs-instance_attributes device=/dev/sdb1 directory=/nsr_share fstype=xfs Operations: monitor: fs-monitor-interval-20 interval=20 timeout=300 start: fs-start-interval-0s interval=0s timeout=60s stop: fs-stop-interval-0s interval=0s timeout=60s Resource: ip (class=ocf provider=heartbeat type=IPaddr) Attributes: ip-instance_attributes cidr_netmask=24 ip=192.1xx.9.1x0 nic=ens192 Operations: monitor: ip-monitor-interval-15 interval=15 timeout=120 start: ip-start-interval-0s interval=0s timeout=20s stop: ip-stop-interval-0s interval=0s timeout=20s Resource: nws (class=ocf provider=EMC_NetWorker type=Server) Meta Attributes: nws-meta_attributes is-managed=true Operations: meta-data: nws-meta-data-interval-0 interval=0 timeout=10 migrate_from: nws-migrate_from-interval-0 interval=0 timeout=120 migrate_to: nws-migrate_to-interval-0 interval=0 timeout=60 monitor: nws-monitor-interval-100 interval=100 timeout=1200 start: nws-start-interval-0 interval=0 timeout=600 stop: nws-stop-interval-0 interval=0 timeout=600 validate-all: nws-validate-all-interval-0 interval=0 timeout=10
In de bovenstaande opdracht worden alle pcs Configuratie van bronnen. Belangrijke dingen om op te letten tijdens het eerste overzicht:
- FS resource "device=": Dit is het apparaat dat wordt gebruikt als koppelpunt voor de gedeelde storage op het knooppuntbestandssysteem. Dit apparaat moet op elk knooppunt hetzelfde zijn. Dit wordt verderop in deze KB besproken.
- FS resource "directory=": Dit is de map die de gedeelde NetWorker-storage gebruikt. De directory moet worden gekoppeld als het koppelpunt voor het veld "device=". Dit wordt verderop in deze KB besproken.
- IP resource "ip=": Dit is het IP-adres dat is gekoppeld aan de logische (gedeelde) hostnaam die door de NetWorker-server wordt gebruikt. Dit IP-adres wordt gehost op het actieve knooppunt.
- Pacemakerzichtbaarheid van het gedeelde adres en opslag:
lcmap
Voorbeeld:
root@lnx-node1:~# lcmap type: NSR_CLU_TYPE; clu_type: NSR_LC_TYPE; interface version: 1.0; type: NSR_CLU_VIRTHOST; hostname: 192.168.9.110; local: TRUE; owned paths: /nsr_share; clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
pcs resource config Veld "ip=". De paden in eigendom moeten overeenkomen met de pcs resource config "directory=" veld. In sommige gevallen, wanneer een opstartprobleem wordt waargenomen, wordt het lcmap De opdracht retourneert niet de velden hostnaam, lokale of eigen paden; Dit duidt op een probleem.
Eerste diagnose:
Als NetWorker Services niet kunnen worden gestart, controleert u het pcs Bronstatus om te zien welke resource defect is:
pcs status
root@lnx-node1:~# pcs status ... ... Node List: * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] Full List of Resources: * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan Daemon Status: corosync: active/enabled pacemaker: active/enabled pcsd: active/enabled
Als er een fout wordt waargenomen, wordt er een algemene foutfout geretourneerd. De defecte resources worden weergegeven als FAILED.
- FS (bestandssysteem): Als het bestandssysteem een mislukte status heeft, raadpleegt u het onderstaande gedeelte over Fouten in het bestandssysteem.
- IP (IPaddr): Als de IPaddr de status Failed heeft, raadpleegt u het onderstaande gedeelte over IPaddr Failures.
- NWS (server): Als de NetWorker-server de status Mislukt heeft, voert u het volgende uit:
- Controleer de
daemon.rawvoor foutberichten die tijdens het opstarten verschijnen. De/nsr_share/nsr/daemon.rawbevindt zich in het pad voor gedeelde opslag. De clientdaemon van de fysieke knooppunten bevindt zich in de/nsr.NetWorker.local/logs/daemon.raw. Zie Dell artikel NetWorker: Hoe nsr_render_log te gebruiken - Als standaardlogboekregistratie niet voldoende is, schakelt u foutopsporing als volgt in:
- Probeer de "Server"-bron opnieuw te starten:
pcs resource cleanup nws
- Gebruik de
dbgcommandom foutopsporing in te schakelen op densrdproces:
dbgcommand -n nsrd Debug=#
daemon.raw voor aanvullende berichten die naar een probleem kunnen verwijzen.
- Kijk in het
/var/log/pcsd/pcsd.logvoor eventuele fouten. - Kijk in het
/var/log/pacemaker/pacemaker.logvoor eventuele fouten. - Kijk in het
/var/log/messagesbestand bestand voor eventuele fouten.
pcsd, pacemaker en berichtenlogboeken zoeken naar berichten die zijn geregistreerd tijdens dezelfde tijdstempels als die waarin de NetWorker-services probeerden te starten. Controleer op fouten of storingen die samenvallen met een opstartfout van de service.
Fouten in het bestandssysteem:
- Bekijk de hulpmiddelen voor de pacemaker:
pcs resource
- Controleer de bronconfiguratie van de pacemaker voor de bestandssysteembron:
pcs resource fs
root@lnx-node1:~# pcs resource
* Resource Group: NW_group:
* fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
* ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
* nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
Attributes: fs-instance_attributes
device=/dev/sdb1
directory=/nsr_share
fstype=xfs
Operations:
monitor: fs-monitor-interval-20
interval=20
timeout=300
start: fs-start-interval-0s
interval=0s
timeout=60s
stop: fs-stop-interval-0s
interval=0s
timeout=60s
- Controleer of het apparaat op de FS is gekoppeld:
df -h
Voorbeeld:
root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1 94G 1.5G 92G 2% /nsr_share
- Controleer of het koppelpunt correct is geconfigureerd; Het apparaat koppelen aan het pad:
lsblk
Voorbeeld:
root@lnx-node1:~# lsblk
NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
sda 8:0 0 40G 0 disk
├─sda1 8:1 0 600M 0 part /boot/efi
├─sda2 8:2 0 1G 0 part /boot
└─sda3 8:3 0 38.4G 0 part
├─rhel-root 253:0 0 34.4G 0 lvm /
└─rhel-swap 253:1 0 4G 0 lvm [SWAP]
sdb 8:16 0 100G 0 disk
└─sdb1 8:17 0 93.1G 0 part /nsr_share
sr0 11:0 1 1024M 0 rom
- Controleer of het bestandssysteem dat door het apparaat wordt gebruikt, correct is:
blkid
root@lnx-node1:~# blkid
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs"
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064"
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162"
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040"
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3"
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
/var/log/pcsd/pcsd.log/var/log/pacemaker/pacemaker.log/var/log/messages
IPaddr Failures:
- Bekijk de hulpmiddelen voor de pacemaker:
pcs resource
- Controleer de bronconfiguratie van de pacemaker voor de bestandssysteembron:
pcs resource config ip
root@lnx-node1:~# pcs resource
* Resource Group: NW_group:
* fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
* ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
* nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
Attributes: ip-instance_attributes
cidr_netmask=24
ip=192.1xx.9.1x0
nic=ens192
Operations:
monitor: ip-monitor-interval-15
interval=15
timeout=120
start: ip-start-interval-0s
interval=0s
timeout=20s stop:
ip-stop-interval-0s
interval=0s
timeout=20s
- Controleer of de NIC beschikbaar is op het systeem:
ifconfig -a
root@lnx-node1:~# ifconfig -a
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
RX packets 953865 bytes 349705527 (333.5 MiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 1190983 bytes 179749786 (171.4 MiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
inet 127.0.0.1 netmask 255.0.0.0
inet6 ::1 prefixlen 128 scopeid 0x10<host>
loop txqueuelen 1000 (Local Loopback)
RX packets 129798 bytes 13274289 (12.6 MiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 129798 bytes 13274289 (12.6 MiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
Het IP-adres dat wordt weergegeven met ifconfig komt overeen met de fysieke knooppuntnaam; het geclusterde IP-adres is echter bereikbaar via deze NIC wanneer het knooppunt actief is. Zorg ervoor dat beide knooppunten zijn geconfigureerd voor het gebruik van dezelfde NIC-namen.
- Wordt het IP-adres omgezet in de juiste (logische) hostnaam die door de NetWorker-server wordt gebruikt?
nslookup ip nslookup logical_name_FQDN nslookup logical_name_short
root@lnx-node1:~# nslookup 192.1xx.9.1x0 110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. Server: 192.1xx.9.1x0 Address: 192.1xx.9.100#53 Name: lnx-nwcluster.amer.lan Address: 192.1xx.9.1x0 root@lnx-node1:~# nslookup lnx-nwcluster Server: 192.1xx.9.1x0 Address: 192.1xx.9.100#53 Name: lnx-nwcluster.amer.lan Address: 192.1xx.9.1x0
Het wordt ook aanbevolen om dezelfde stappen uit te voeren voor het IP-adres, de FQDN en de korte naam van het fysieke knooppunt. Zie Dell artikel NetWorker: Best practices voor het oplossen van problemen met naamresolutie.
- Kunt u het IP-adres van het cluster bereiken met behulp van
ping?
ping -c 4 ip
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms --- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
/var/log/pcsd/pcsd.log/var/log/pacemaker/pacemaker.log/var/log/messages
Other PCS Commands:
| Operatie | Opdracht |
Pacemaker of pcs version: |
|
| Pacemaker-overzicht |
|
| Overzicht van pacemakerbronnen |
|
| Bepaal het eigendom van een pad in een cluster. |
|
| Enable (start) resource. |
|
Start pcs resource met debug. |
|
| Evalueer configuratie-instellingen voor pc's |
|
| Resource uitschakelen (stoppen): |
|
| Start de mislukte bron opnieuw. |
|
| Stop pacemaker op knooppunt. |
|
| Start pacemaker |
|
| Zet de node in stand-by. |
|
| Haal de node uit stand-by. |
|
Belangrijke logboeken en bestanden:
| Pad | Doel | Aanvullende opdrachten |
/var/log/messages |
Bevat algemene systeemberichten met betrekking tot systeembronnen en -services. |
|
/var/log/pacemaker/pacemaker.log |
Standaard logboekregistratie van pacemakerinformatie voor pacemakerbronnen en -functies. | N.v.t. |
/var/log/pcsd/pcsd.log |
Standaard pacemakerservice/daemon (pcsd) logboek. |
N.v.t. |
/var/log/cluster/corosync.log |
Standaard communicatielogboek pacemakerknooppunt. | N.v.t. |
/usr/sbin/nw_hae.log |
NetWorker (nws) Resource-startlogboek zoals gedefinieerd in /usr/lib/ocf/resource.d/EMC_NetWorker/Server |
N.v.t. |
/usr/lib/ocf/resource.d/EMC_NetWorker/Server |
Configuratiebestand NetWorker pacemaker. Dit is welke bewerkingen worden uitgevoerd/beheerd door pc's. | N.v.t. |