Vorgehensweise, wenn ein Node als "Down" oder "Offline" gemeldet wird

Zusammenfassung: So stellen Sie fest, ob ein Node ausgefallen ist und wie Sie eine Verbindung zu dem Node herstellen, wenn dieser inaktiv ist.

Betroffene Produkte

Dieser Artikel gilt für Dieser Artikel gilt nicht für Dieser Artikel ist nicht an ein bestimmtes Produkt gebunden. In diesem Artikel werden nicht alle Produktversionen aufgeführt.

Andere Ressourcen ansehen

Weisungen

Wann immer ein Node ein Problem bei der Kommunikation mit den anderen Nodes im Cluster hat, wird er als offline gemeldet. Es gibt viele Gründe, warum ein Node oder Nodes in diesem Status gemeldet werden können, von der Hardware bis zum Betriebssystem. Der häufigste Hinweis darauf, dass ein Node ausgefallen ist, sind die Ereignismeldungen. Wenn ein Node die Verbindung zu den verbleibenden Nodes im Cluster verliert, wird das Ereignis "Node offline" gemeldet:

2.21767  02/27 05:14 C    3    173520         Node 3 is offline

Wenn ein ähnliches Ereignis angezeigt wird, ermitteln Sie, ob der Node wiederhergestellt wurde oder ob er noch offline ist. Um dies zu bestimmen, verwenden Sie die Ausgabe von isi status.

Wenn die isi-Statusausgabe alle Nodes als OK meldet:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [  OK ]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           16.7T (20.3T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             22.0G (< 1%)
Avail:            0 (n/a)             16.7T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0| 524k| 524k|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |962.0|23.1M|23.1M|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  3|xxx.xxx.xxx.150 | OK  | C |    0|    0|    0|(No Storage HDDs)| 9.2G/ 5.6T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |962.0|23.7M|23.7M|(No Storage HDDs)|22.0G/16.7T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded

In diesem Beispiel werden alle Nodes als OK gemeldet. Dies weist darauf hin, dass alle Nodes online und Teil des Clusters sind. Stellen Sie fest, ob jemand den Node neu gestartet hat oder ob Wartungsarbeiten durchgeführt wurden. Wenn Sie sich nicht sicher sind, was der Grund für den Neustart ist, sollten Sie Protokolle sammeln und einen Service-Request öffnen.

Wenn isi status einen Node bei Attention:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           15.0T (18.6T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             21.2G (< 1%)
Avail:            0 (n/a)             15.0T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C | 2.1k|16.9k|19.0k|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C | 1.8M|10.0M|11.9M|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  3|xxx.xxx.xxx.150 |-A-- | C | 4.0k|480.0| 4.5k|(No Storage HDDs)|10.7G/ 5.5T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              | 1.8M|10.0M|11.9M|(No Storage HDDs)|21.2G/15.0T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

Running jobs:
Job                        Impact Pri Policy     Phase Run Time
-------------------------- ------ --- ---------- ----- ----------
FlexProtectLin[520]        Medium 1   MEDIUM     4/4   0:00:34
        Job Description: Working on nodes: None   and drives: node3:bay1

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded

Die Ausgabe des isi-Status auf dem Node zeigt Attention -A--, dies weist auf ein kritisches Ereignis auf dem Cluster hin. Ein Node mit Aufmerksamkeitsstatus ist online und Teil des Clusters, meldet aber ein Problem. Sie können die isi-Ereignisliste verwenden, um zu sehen, welche kritischen Ereignisse für den Node unter Aufmerksamkeit gemeldet werden. In diesem Fall lag dies an einem FlexProtectLin-Job, der auf Laufwerksschacht 1 ausgeführt wurde. Wie beim Status "OK" sollten Sie gegebenenfalls ermitteln, warum der Node neu gestartet wurde. Ist dies nicht der Fall, sollten Sie Protokolle erfassen und einen Service-Request öffnen.

Wenn isi status einen Node als Down meldet:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           9.9T (13.5T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             12.7G (< 1%)
Avail:            0 (n/a)             9.9T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0|73.9k|73.9k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |    0|11.3k|11.3k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  3|xxx.xxx.xxx.150 |D--- | N |  n/a|  n/a|  n/a|  n/a/  n/a( n/a)|  n/a/  n/a( n/a)
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |  n/a|  n/a|  n/a|(No Storage HDDs)|12.7G/ 9.9T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------
02/27 05:14:20  3    Node 3 offline


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded
02/27 00:00:21  ShadowStoreDelete[516]     Succeeded

In der Ausgabe des isi-Status wird der Node als Down D angezeigt---, dies weist darauf hin, dass der Node nicht mit dem Cluster kommunizieren kann. Wenn der Node nicht aus einem bekannten Grund ausgefallen ist, prüfen Sie, ob Sie eine Verbindung zum Node herstellen und sofort einen Service-Request öffnen können.

Remoteverbindung zu einem ausgefallenen Node wird hergestellt

Wenn der Node ausgefallen ist, bedeutet dies, dass er nicht mit dem Cluster kommunizieren kann. Es ist jedoch möglich, dass Sie weiterhin eine Verbindung mit dem Node herstellen können. Sie können sich möglicherweise weiterhin remote oder über eine serielle Verbindung anmelden.

Von einem anderen Node im Cluster aus können Sie versuchen, über das interne Netzwerk eine Verbindung zum Down-Node herzustellen. Versuchen Sie, die Node-Nummer "clustername-node" zu pingen. Verwenden von Node 3 aus der obigen Ausgabe:

testcluster-1# ping testcluster-3
PING testcluster-3 (128.221.254.3): 56 data bytes
64 bytes from 128.221.254.3: icmp_seq=0 ttl=64 time=0.048 ms
64 bytes from 128.221.254.3: icmp_seq=1 ttl=64 time=0.042 ms
64 bytes from 128.221.254.3: icmp_seq=2 ttl=64 time=0.043 ms
^C
--- testcluster-3 ping statistics ---
3 packets transmitted, 3 packets received, 0.0% packet loss

In diesem Beispiel könnten wir die Node-Nummer clustername-node pingen, obwohl der Node als ausgefallen gemeldet wird. Wir versuchen, eine SSH-Verbindung zum Node herzustellen, um zu sehen, ob eine Verbindung hergestellt werden kann.

Wenn der Node über eine statisch zugewiesene IP-Adresse in Ihrem öffentlichen Netzwerk verfügt, können Sie möglicherweise eine Verbindung zu dieser herstellen. Stellen Sie fest, ob Sie über eine statisch zugewiesene Adresse aus dem Cluster verfügen. Verwenden Sie den Befehl isi network:

testcluster-1# isi network interfaces list | grep Static
1    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.148
2    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.149
3    25gige-1     Unknown    -        groupnet0.subnet0.pool0 Static      192.168.1.150

In diesem Beispiel hat Node 3 im Cluster eine statisch zugewiesene Adresse namens 192.168.1.150. Von einem anderen Node im Cluster oder einer Workstation, die Zugriff auf dieses Netzwerk hat, würden wir versuchen, die Adresse anzupingen. Wenn wir die Adresse erfolgreich anpingen können, versuchen wir, eine SSH-Verbindung zum Node herzustellen.

Lokales Herstellen einer Verbindung zu einem ausgefallenen Node

Wenn jemand vor Ort ist und:

Sie haben einen Computer mit einem seriellen Anschluss oder USB-zu-Seriell-Adapter
Nullmodemkabel oder serielles Kabel mit Nullmodemadapter.

Sie können sich zu Troubleshooting-Zwecken direkt mit dem Node verbinden. Informationen zum Herstellen einer Verbindung mit dem seriellen Anschluss auf dem Node finden Sie in PowerScale: Schritte für Kunden zum Herstellen einer Verbindung zum seriellen Anschluss, wenn keine Remoteverbindung möglich ist

Betroffene Produkte

PowerScale, Isilon Gen6.5, Isilon Gen6, Isilon NL-Series, PowerScale OneFS, Isilon S-Series, Isilon Scale-out NAS, Isilon X-Series

Artikelnummer: 000290053

Artikeltyp: How To

Zuletzt geändert: 06 Feb. 2026

Version: 2

Prüfen Sie, ob Ihr Gerät durch Support Services abgedeckt ist.

Vorgehensweise, wenn ein Node als "Down" oder "Offline" gemeldet wird

Zusammenfassung: So stellen Sie fest, ob ein Node ausgefallen ist und wie Sie eine Verbindung zu dem Node herstellen, wenn dieser inaktiv ist.

Weisungen

Betroffene Produkte

Weisungen

Betroffene Produkte

Artikeleigenschaften

Antworten auf Ihre Fragen erhalten Sie von anderen Dell NutzerInnen

Support Services

Artikeleigenschaften

Antworten auf Ihre Fragen erhalten Sie von anderen Dell NutzerInnen

Support Services

Vorgehensweise, wenn ein Node als "Down" oder "Offline" gemeldet wird

Zusammenfassung: So stellen Sie fest, ob ein Node ausgefallen ist und wie Sie eine Verbindung zu dem Node herstellen, wenn dieser inaktiv ist.

Ausführlicher Artikel

Weisungen

Betroffene Produkte

Weisungen

Betroffene Produkte

Artikeleigenschaften

Antworten auf Ihre Fragen erhalten Sie von anderen Dell NutzerInnen

Support Services

Artikeleigenschaften

Antworten auf Ihre Fragen erhalten Sie von anderen Dell NutzerInnen

Support Services