Wat te doen als een knooppunt als uitgeschakeld of offline wordt gemeld
Summary: Hoe u kunt bepalen of een knooppunt niet beschikbaar is en manieren om verbinding te maken met het knooppunt in een uitgeschakelde status.
Instructions
Wanneer een knooppunt een probleem heeft met communiceren met de andere knooppunten in het cluster, wordt het gerapporteerd als offline. Er zijn veel redenen waarom een knooppunt of knooppunten in deze status kunnen worden gemeld, van hardware tot besturingssysteem. De meest voorkomende indicator dat een knooppunt niet beschikbaar is, zijn de gebeurtenisberichten. Als een knooppunt de verbinding met de resterende knooppunten in het cluster verliest, wordt een gebeurtenis "node offline" gemeld:
2.21767 02/27 05:14 C 3 173520 Node 3 is offline
Als u een soortgelijke gebeurtenis ziet, bepaalt u of het knooppunt is hersteld of dat het nog steeds offline is. Gebruik hiervoor de output van isi status.
Als de isi-statusuitvoer alle knooppunten als OK rapporteert:
testcluster-1# isi status Cluster Name: testcluster Cluster Health: [ OK ] Data Reduction: 1.33 : 1 Storage Efficiency: 0.72 : 1 Cluster Storage: HDD SSD Storage Size: 0 (0 Raw) 16.7T (20.3T Raw) VHS Size: 3.6T Used: 0 (n/a) 22.0G (< 1%) Avail: 0 (n/a) 16.7T (> 99%) Health Ext Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size ---+----------------+-----+---+-----+-----+-----+-----------------+----------------- 1|xxx.xxx.xxx.148 | OK | C | 0| 524k| 524k|(No Storage HDDs)| 6.4G/ 5.6T(< 1%) 2|xxx.xxx.xxx.149 | OK | C |962.0|23.1M|23.1M|(No Storage HDDs)| 6.4G/ 5.6T(< 1%) 3|xxx.xxx.xxx.150 | OK | C | 0| 0| 0|(No Storage HDDs)| 9.2G/ 5.6T(< 1%) ---+----------------+-----+---+-----+-----+-----+-----------------+----------------- Cluster Totals: |962.0|23.7M|23.7M|(No Storage HDDs)|22.0G/16.7T(< 1%) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only External Network Fields: C = Connected, N = Not Connected Critical Events: Time LNN Event --------------- ---- ------------------------------------------------------- Cluster Job Status: No running jobs. No paused or waiting jobs. No failed jobs. Recent job results: Time Job Event --------------- -------------------------- ------------------------------ 02/27 04:00:38 ShadowStoreProtect[518] Succeeded 02/27 02:00:14 WormQueue[517] Succeeded
In dit voorbeeld worden alle knooppunten gerapporteerd als OK. Dit geeft aan dat alle knooppunten online zijn en deel uitmaken van het cluster. Bepaal of iemand het knooppunt opnieuw heeft opgestart of dat er onderhoud werd uitgevoerd. Als u niet zeker weet wat de reden voor het opnieuw opstarten is, kunt u logboeken verzamelen en een serviceaanvraag openen.
Als isi-status een knooppunt meldt bij Let op:
testcluster-1# isi status
Cluster Name: testcluster
Cluster Health: [ ATTN]
Data Reduction: 1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage: HDD SSD Storage
Size: 0 (0 Raw) 15.0T (18.6T Raw)
VHS Size: 3.6T
Used: 0 (n/a) 21.2G (< 1%)
Avail: 0 (n/a) 15.0T (> 99%)
Health Ext Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
1|xxx.xxx.xxx.148 | OK | C | 2.1k|16.9k|19.0k|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
2|xxx.xxx.xxx.149 | OK | C | 1.8M|10.0M|11.9M|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
3|xxx.xxx.xxx.150 |-A-- | C | 4.0k|480.0| 4.5k|(No Storage HDDs)|10.7G/ 5.5T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals: | 1.8M|10.0M|11.9M|(No Storage HDDs)|21.2G/15.0T(< 1%)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
External Network Fields: C = Connected, N = Not Connected
Critical Events:
Time LNN Event
--------------- ---- -------------------------------------------------------
Cluster Job Status:
Running jobs:
Job Impact Pri Policy Phase Run Time
-------------------------- ------ --- ---------- ----- ----------
FlexProtectLin[520] Medium 1 MEDIUM 4/4 0:00:34
Job Description: Working on nodes: None and drives: node3:bay1
No paused or waiting jobs.
No failed jobs.
Recent job results:
Time Job Event
--------------- -------------------------- ------------------------------
02/27 04:00:38 ShadowStoreProtect[518] Succeeded
02/27 02:00:14 WormQueue[517] Succeeded
De isi-statusuitvoer op het knooppunt geeft deze weer op Attention -A--, dit wordt geactiveerd door een kritieke gebeurtenis op het cluster. Een knooppunt met de status Aandacht is online en maakt deel uit van het cluster, maar rapporteert een probleem. U kunt isi event list gebruiken om te zien welke kritieke gebeurtenissen worden gerapporteerd voor het knooppunt bij Attention. In dit geval was dit te wijten aan een FlexProtectLin-taak die werd uitgevoerd tegen schijfbay 1. Net als bij de OK-status zou u indien mogelijk willen bepalen waarom het knooppunt opnieuw is opgestart. Als dit niet het geval is, kunt u logboeken verzamelen en een serviceaanvraag openen.
Als de isi-status een knooppunt als Down rapporteert:
testcluster-1# isi status
Cluster Name: testcluster
Cluster Health: [ ATTN]
Data Reduction: 1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage: HDD SSD Storage
Size: 0 (0 Raw) 9.9T (13.5T Raw)
VHS Size: 3.6T
Used: 0 (n/a) 12.7G (< 1%)
Avail: 0 (n/a) 9.9T (> 99%)
Health Ext Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
1|xxx.xxx.xxx.148 | OK | C | 0|73.9k|73.9k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
2|xxx.xxx.xxx.149 | OK | C | 0|11.3k|11.3k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
3|xxx.xxx.xxx.150 |D--- | N | n/a| n/a| n/a| n/a/ n/a( n/a)| n/a/ n/a( n/a)
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals: | n/a| n/a| n/a|(No Storage HDDs)|12.7G/ 9.9T(< 1%)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
External Network Fields: C = Connected, N = Not Connected
Critical Events:
Time LNN Event
--------------- ---- -------------------------------------------------------
02/27 05:14:20 3 Node 3 offline
Cluster Job Status:
No running jobs.
No paused or waiting jobs.
No failed jobs.
Recent job results:
Time Job Event
--------------- -------------------------- ------------------------------
02/27 04:00:38 ShadowStoreProtect[518] Succeeded
02/27 02:00:14 WormQueue[517] Succeeded
02/27 00:00:21 ShadowStoreDelete[516] Succeeded
De isi-statusuitvoer toont het knooppunt als Down D---, dit geeft aan dat het knooppunt niet kan communiceren met het cluster. Als het knooppunt niet beschikbaar is om een bekende reden (er wordt hardwareonderhoud uitgevoerd, het besturingssysteem van het cluster wordt geüpgraded, enz.), kijk dan of u verbinding kunt maken met het knooppunt en open direct een serviceaanvraag.
Op afstand verbinding maken met een down node
Als het knooppunt niet beschikbaar is, betekent dit dat het niet kan communiceren met het cluster. Het is echter mogelijk dat u nog steeds verbinding kunt maken met het knooppunt. Mogelijk kunt u zich nog steeds op afstand of via een seriële verbinding aanmelden.
Vanaf een ander knooppunt in het cluster kunt u proberen via het interne netwerk verbinding te maken met het aangesloten knooppunt. Probeer het clusternaam-knooppuntnummer te pingen? Gebruik knooppunt 3 uit de bovenstaande uitvoer:
testcluster-1# ping testcluster-3 PING testcluster-3 (128.221.254.3): 56 data bytes 64 bytes from 128.221.254.3: icmp_seq=0 ttl=64 time=0.048 ms 64 bytes from 128.221.254.3: icmp_seq=1 ttl=64 time=0.042 ms 64 bytes from 128.221.254.3: icmp_seq=2 ttl=64 time=0.043 ms ^C --- testcluster-3 ping statistics --- 3 packets transmitted, 3 packets received, 0.0% packet loss
In dit voorbeeld konden we het nummer van het clusternaam-knooppunt pingen, ook al meldt het knooppunt dat het niet beschikbaar is. We zouden proberen naar de node te ssh en kijken of we verbinding kunnen maken.
Als het knooppunt een statisch toegewezen IP-adres heeft op uw openbare netwerk, kunt u daar mogelijk verbinding mee maken. Om te bepalen of u een statisch toegewezen adres uit het cluster hebt, gebruikt u de isi-netwerkopdracht:
testcluster-1# isi network interfaces list | grep Static 1 25gige-1 Up - groupnet0.subnet0.pool0 Static 192.168.1.148 2 25gige-1 Up - groupnet0.subnet0.pool0 Static 192.168.1.149 3 25gige-1 Unknown - groupnet0.subnet0.pool0 Static 192.168.1.150
In dit voorbeeld heeft knooppunt 3 in het cluster een statisch toegewezen adres op 192.168.1.150. Vanaf een ander knooppunt in het cluster of een werkstation dat toegang heeft tot dat netwerk, proberen we het adres te pingen. Als we het adres met succes kunnen pingen, proberen we ssh in het knooppunt te ssh.
Lokaal verbinding tot stand brengen met een down node
Als iemand op locatie is en een computer heeft met een seriële poort of usb-naar-seriële adapter en een nulmodemkabel of seriële kabel met een nulmodemadapter. Ze kunnen rechtstreeks verbinding maken met het knooppunt voor probleemoplossingsdoeleinden. Informatie over verbinding maken met de seriële poort op het knooppunt vindt u in PowerScale: Stappen voor klanten om verbinding te maken met de seriële poort wanneer externe verbinding niet mogelijk is