Hvad skal jeg gøre, når en node rapporteres som Ned eller Offline
Summary: Sådan finder du ud af, om en node er nede, og hvordan du kan oprette forbindelse til noden i nedlukket tilstand.
Instructions
Når en node har problemer med at kommunikere med de andre noder i klyngen, rapporteres den som offline. Der er mange grunde til, at en node eller noder kan rapporteres i denne tilstand, fra hardware til OS. Den mest almindelige indikator for, at en node er nede, er i hændelsesmeddelelserne. Hvis en node mister forbindelsen til de resterende noder i klyngen, rapporteres en "node offline"-hændelse:
2.21767 02/27 05:14 C 3 173520 Node 3 is offline
Hvis du ser en hændelse, der ligner denne, skal du kontrollere, om noden er gendannet, eller om den stadig er offline. For at bestemme dette skal du bruge outputtet fra isi-status.
Hvis isi-statusoutput rapporterer alle noder som OK:
testcluster-1# isi status Cluster Name: testcluster Cluster Health: [ OK ] Data Reduction: 1.33 : 1 Storage Efficiency: 0.72 : 1 Cluster Storage: HDD SSD Storage Size: 0 (0 Raw) 16.7T (20.3T Raw) VHS Size: 3.6T Used: 0 (n/a) 22.0G (< 1%) Avail: 0 (n/a) 16.7T (> 99%) Health Ext Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size ---+----------------+-----+---+-----+-----+-----+-----------------+----------------- 1|xxx.xxx.xxx.148 | OK | C | 0| 524k| 524k|(No Storage HDDs)| 6.4G/ 5.6T(< 1%) 2|xxx.xxx.xxx.149 | OK | C |962.0|23.1M|23.1M|(No Storage HDDs)| 6.4G/ 5.6T(< 1%) 3|xxx.xxx.xxx.150 | OK | C | 0| 0| 0|(No Storage HDDs)| 9.2G/ 5.6T(< 1%) ---+----------------+-----+---+-----+-----+-----+-----------------+----------------- Cluster Totals: |962.0|23.7M|23.7M|(No Storage HDDs)|22.0G/16.7T(< 1%) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only External Network Fields: C = Connected, N = Not Connected Critical Events: Time LNN Event --------------- ---- ------------------------------------------------------- Cluster Job Status: No running jobs. No paused or waiting jobs. No failed jobs. Recent job results: Time Job Event --------------- -------------------------- ------------------------------ 02/27 04:00:38 ShadowStoreProtect[518] Succeeded 02/27 02:00:14 WormQueue[517] Succeeded
I dette eksempel rapporteres alle noder som OK. Dette angiver, at alle noder er online og en del af klyngen. Find ud af, om nogen har genstartet noden, eller om der blev udført vedligeholdelse. Hvis du er usikker på årsagen til genstarten, kan du indsamle logfiler og åbne en serviceanmodning.
Hvis isi-status rapporterer en node på Attention:
testcluster-1# isi status
Cluster Name: testcluster
Cluster Health: [ ATTN]
Data Reduction: 1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage: HDD SSD Storage
Size: 0 (0 Raw) 15.0T (18.6T Raw)
VHS Size: 3.6T
Used: 0 (n/a) 21.2G (< 1%)
Avail: 0 (n/a) 15.0T (> 99%)
Health Ext Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
1|xxx.xxx.xxx.148 | OK | C | 2.1k|16.9k|19.0k|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
2|xxx.xxx.xxx.149 | OK | C | 1.8M|10.0M|11.9M|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
3|xxx.xxx.xxx.150 |-A-- | C | 4.0k|480.0| 4.5k|(No Storage HDDs)|10.7G/ 5.5T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals: | 1.8M|10.0M|11.9M|(No Storage HDDs)|21.2G/15.0T(< 1%)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
External Network Fields: C = Connected, N = Not Connected
Critical Events:
Time LNN Event
--------------- ---- -------------------------------------------------------
Cluster Job Status:
Running jobs:
Job Impact Pri Policy Phase Run Time
-------------------------- ------ --- ---------- ----- ----------
FlexProtectLin[520] Medium 1 MEDIUM 4/4 0:00:34
Job Description: Working on nodes: None and drives: node3:bay1
No paused or waiting jobs.
No failed jobs.
Recent job results:
Time Job Event
--------------- -------------------------- ------------------------------
02/27 04:00:38 ShadowStoreProtect[518] Succeeded
02/27 02:00:14 WormQueue[517] Succeeded
Isi-statusoutputtet på noden viser det ved Attention -A--, dette udløses af en kritisk hændelse på klyngen. En node i opmærksomhedstilstand er online og en del af klyngen, men rapporterer et problem. Du kan bruge isi-hændelseslisten til at se, hvilke kritiske hændelser der rapporteres for noden under Attention. I dette tilfælde skyldtes det et FlexProtectLin-job, der kørte mod drevbås 1. Som med OK-tilstanden skal du bestemme, hvorfor noden genstartede, hvis du kan. Hvis ikke, skal du indsamle logfiler og åbne en serviceanmodning.
Hvis isi-status rapporterer en node som Ned:
testcluster-1# isi status
Cluster Name: testcluster
Cluster Health: [ ATTN]
Data Reduction: 1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage: HDD SSD Storage
Size: 0 (0 Raw) 9.9T (13.5T Raw)
VHS Size: 3.6T
Used: 0 (n/a) 12.7G (< 1%)
Avail: 0 (n/a) 9.9T (> 99%)
Health Ext Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
1|xxx.xxx.xxx.148 | OK | C | 0|73.9k|73.9k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
2|xxx.xxx.xxx.149 | OK | C | 0|11.3k|11.3k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
3|xxx.xxx.xxx.150 |D--- | N | n/a| n/a| n/a| n/a/ n/a( n/a)| n/a/ n/a( n/a)
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals: | n/a| n/a| n/a|(No Storage HDDs)|12.7G/ 9.9T(< 1%)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
External Network Fields: C = Connected, N = Not Connected
Critical Events:
Time LNN Event
--------------- ---- -------------------------------------------------------
02/27 05:14:20 3 Node 3 offline
Cluster Job Status:
No running jobs.
No paused or waiting jobs.
No failed jobs.
Recent job results:
Time Job Event
--------------- -------------------------- ------------------------------
02/27 04:00:38 ShadowStoreProtect[518] Succeeded
02/27 02:00:14 WormQueue[517] Succeeded
02/27 00:00:21 ShadowStoreDelete[516] Succeeded
Isi-statusoutputtet viser noden som Down D---, dette indikerer, at noden ikke er i stand til at kommunikere med klyngen. Hvis noden ikke er nede af en kendt årsag (der udføres hardwarevedligeholdelse, klyngeoperativsystemet opgraderes osv.), skal du se, om du kan oprette forbindelse til noden og åbne en serviceanmodning med det samme.
Oprettelse af fjernforbindelse til en down-node
Hvis noden er nede, betyder det, at den ikke kan kommunikere med klyngen. Det er dog muligt, at du stadig kan oprette forbindelse til noden. Du kan muligvis stadig logge på eksternt eller via seriel forbindelse.
Fra en anden node i klyngen kan du forsøge at oprette forbindelse til ned-noden ved hjælp af det interne netværk. Prøv at pinge clustername-nodenummeret? Brug af node 3 fra outputtet ovenfor:
testcluster-1# ping testcluster-3 PING testcluster-3 (128.221.254.3): 56 data bytes 64 bytes from 128.221.254.3: icmp_seq=0 ttl=64 time=0.048 ms 64 bytes from 128.221.254.3: icmp_seq=1 ttl=64 time=0.042 ms 64 bytes from 128.221.254.3: icmp_seq=2 ttl=64 time=0.043 ms ^C --- testcluster-3 ping statistics --- 3 packets transmitted, 3 packets received, 0.0% packet loss
I dette eksempel kunne vi pinge clustername-nodenummeret, selvom noden rapporteres som nede. Vi ville prøve at ssh til noden og se, om vi kan oprette forbindelse.
Hvis noden har en statisk tildelt IP-adresse på dit offentlige netværk, kan du muligvis oprette forbindelse til den. For at finde ud af, om du har en statisk tildelt adresse fra klyngen, skal du bruge kommandoen isi network:
testcluster-1# isi network interfaces list | grep Static 1 25gige-1 Up - groupnet0.subnet0.pool0 Static 192.168.1.148 2 25gige-1 Up - groupnet0.subnet0.pool0 Static 192.168.1.149 3 25gige-1 Unknown - groupnet0.subnet0.pool0 Static 192.168.1.150
I dette eksempel har node 3 i klyngen en statisk tildelt adresse på 192.168.1.150. Fra en anden node i klyngen eller en arbejdsstation, der har adgang til dette netværk, vil vi forsøge at pinge adressen. Hvis vi kan pinge adressen, vil vi derefter forsøge at ssh ind i noden.
Etablering af forbindelse til en ned-node lokalt
Hvis nogen er onsite, og de har en computer med en seriel port eller usb til seriel adapter og et nullmodemkabel eller serielt kabel med null-modemadapter. De kan oprette forbindelse direkte til noden med henblik på fejlfinding. Du kan finde oplysninger om, hvordan du tilslutter til den serielle port på noden, i PowerScale: Trin for kunder til at oprette forbindelse til seriel port, når fjernforbindelse ikke er mulig