Vorgehensweise, wenn ein Node als "Down" oder "Offline" gemeldet wird

Summary: So stellen Sie fest, ob ein Node ausgefallen ist und wie Sie eine Verbindung zu dem Node herstellen, wenn dieser inaktiv ist.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Wann immer ein Node ein Problem bei der Kommunikation mit den anderen Nodes im Cluster hat, wird er als offline gemeldet. Es gibt viele Gründe, warum ein Node oder Nodes in diesem Status gemeldet werden können, von der Hardware bis zum Betriebssystem. Der häufigste Hinweis darauf, dass ein Node ausgefallen ist, sind die Ereignismeldungen. Wenn ein Node die Verbindung zu den verbleibenden Nodes im Cluster verliert, wird das Ereignis "Node offline" gemeldet:

2.21767  02/27 05:14 C    3    173520         Node 3 is offline

 

Wenn ein ähnliches Ereignis angezeigt wird, ermitteln Sie, ob der Node wiederhergestellt wurde oder ob er noch offline ist. Um dies zu bestimmen, verwenden Sie die Ausgabe von isi status.

Wenn die isi-Statusausgabe alle Nodes als OK meldet:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [  OK ]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           16.7T (20.3T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             22.0G (< 1%)
Avail:            0 (n/a)             16.7T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0| 524k| 524k|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |962.0|23.1M|23.1M|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  3|xxx.xxx.xxx.150 | OK  | C |    0|    0|    0|(No Storage HDDs)| 9.2G/ 5.6T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |962.0|23.7M|23.7M|(No Storage HDDs)|22.0G/16.7T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded
 

In diesem Beispiel werden alle Nodes als OK gemeldet. Dies zeigt an, dass alle Nodes online und Teil des Clusters sind. Stellen Sie fest, ob jemand den Node neu gestartet hat oder ob Wartungsarbeiten durchgeführt wurden. Wenn Sie sich nicht sicher sind, was der Grund für den Neustart ist, sollten Sie Protokolle sammeln und einen Service-Request öffnen.

Wenn isi status einen Node bei Attention:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           15.0T (18.6T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             21.2G (< 1%)
Avail:            0 (n/a)             15.0T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C | 2.1k|16.9k|19.0k|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C | 1.8M|10.0M|11.9M|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  3|xxx.xxx.xxx.150 |-A-- | C | 4.0k|480.0| 4.5k|(No Storage HDDs)|10.7G/ 5.5T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              | 1.8M|10.0M|11.9M|(No Storage HDDs)|21.2G/15.0T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

Running jobs:
Job                        Impact Pri Policy     Phase Run Time
-------------------------- ------ --- ---------- ----- ----------
FlexProtectLin[520]        Medium 1   MEDIUM     4/4   0:00:34
        Job Description: Working on nodes: None   and drives: node3:bay1

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded

Die Ausgabe des isi-Status auf dem Node zeigt Attention -A an--, Dies wird durch ein kritisches Ereignis auf dem Cluster ausgelöst. Ein Node mit Aufmerksamkeitsstatus ist online und Teil des Clusters, meldet aber ein Problem. Sie können die isi-Ereignisliste verwenden, um zu sehen, welche kritischen Ereignisse für den Node unter Aufmerksamkeit gemeldet werden. In diesem Fall lag dies an einem FlexProtectLin-Job, der auf Laufwerksschacht 1 ausgeführt wurde. Wie beim Status "OK" sollten Sie gegebenenfalls ermitteln, warum der Node neu gestartet wurde. Ist dies nicht der Fall, sollten Sie Protokolle erfassen und einen Service-Request öffnen.

Wenn isi status einen Node als Down meldet:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           9.9T (13.5T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             12.7G (< 1%)
Avail:            0 (n/a)             9.9T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0|73.9k|73.9k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |    0|11.3k|11.3k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  3|xxx.xxx.xxx.150 |D--- | N |  n/a|  n/a|  n/a|  n/a/  n/a( n/a)|  n/a/  n/a( n/a)
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |  n/a|  n/a|  n/a|(No Storage HDDs)|12.7G/ 9.9T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------
02/27 05:14:20  3    Node 3 offline


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded
02/27 00:00:21  ShadowStoreDelete[516]     Succeeded

In der Ausgabe des isi-Status wird der Node als Down D angezeigt---, dies weist darauf hin, dass der Node nicht mit dem Cluster kommunizieren kann. Wenn der Node aus einem bekannten Grund nicht ausgefallen ist (Hardwarewartung wird durchgeführt, Clusterbetriebssystem wird aktualisiert usw.), prüfen Sie, ob Sie die Verbindung zum Node herstellen und sofort einen Service-Request öffnen können.

Remoteverbindung zu einem ausgefallenen Node wird hergestellt

Wenn der Node ausgefallen ist, bedeutet dies, dass er nicht mit dem Cluster kommunizieren kann. Es ist jedoch möglich, dass Sie weiterhin eine Verbindung mit dem Node herstellen können. Sie können sich möglicherweise weiterhin remote oder über eine serielle Verbindung anmelden.

Von einem anderen Node im Cluster aus können Sie versuchen, über das interne Netzwerk eine Verbindung zum Down-Node herzustellen. Versuchen Sie, die Node-Nummer "clustername-node" zu pingen. Verwenden von Node 3 aus der obigen Ausgabe:

testcluster-1# ping testcluster-3
PING testcluster-3 (128.221.254.3): 56 data bytes
64 bytes from 128.221.254.3: icmp_seq=0 ttl=64 time=0.048 ms
64 bytes from 128.221.254.3: icmp_seq=1 ttl=64 time=0.042 ms
64 bytes from 128.221.254.3: icmp_seq=2 ttl=64 time=0.043 ms
^C
--- testcluster-3 ping statistics ---
3 packets transmitted, 3 packets received, 0.0% packet loss

 In diesem Beispiel konnten wir die Node-Nummer "clustername-node" anpingen, obwohl der Node als ausgefallen gemeldet wurde. Wir versuchen, eine SSH-Verbindung zum Node herzustellen, um zu sehen, ob eine Verbindung hergestellt werden kann.

Wenn der Node über eine statisch zugewiesene IP-Adresse in Ihrem öffentlichen Netzwerk verfügt, können Sie möglicherweise eine Verbindung zu dieser herstellen. Um festzustellen, ob Sie über eine statisch zugewiesene Adresse vom Cluster verfügen, verwenden Sie den Befehl isi network:
 

testcluster-1# isi network interfaces list | grep Static
1    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.148
2    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.149
3    25gige-1     Unknown    -        groupnet0.subnet0.pool0 Static      192.168.1.150

 In diesem Beispiel hat Node 3 im Cluster eine statisch zugewiesene Adresse namens 192.168.1.150. Von einem anderen Node im Cluster oder einer Workstation, die Zugriff auf dieses Netzwerk hat, würden wir versuchen, die Adresse anzupingen. Wenn wir die Adresse erfolgreich anpingen können, versuchen wir, eine SSH-Verbindung zum Node herzustellen.

Lokales Herstellen einer Verbindung zu einem ausgefallenen Node

Wenn jemand vor Ort ist und einen Computer mit einem seriellen Anschluss oder USB-zu-Seriell-Adapter und einem Nullmodemkabel oder einem seriellen Kabel mit Nullmodemadapter hat. Sie können sich zu Troubleshooting-Zwecken direkt mit dem Node verbinden. Informationen zum Herstellen einer Verbindung mit dem seriellen Anschluss auf dem Node finden Sie in PowerScale: Schritte für Kunden zum Herstellen einer Verbindung zum seriellen Anschluss, wenn keine Remoteverbindung möglich ist

Affected Products

PowerScale, Isilon Gen6.5, Isilon Gen6, Isilon NL-Series, PowerScale OneFS, Isilon S-Series, Isilon Scale-out NAS, Isilon X-Series
Article Properties
Article Number: 000290053
Article Type: How To
Last Modified: 02 Jul 2025
Version:  1
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.