Co zrobić, gdy węzeł jest zgłaszany jako wyłączony lub offline

Summary: Jak sprawdzić, czy węzeł nie działa i jak nawiązać z nim połączenie.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Za każdym razem, gdy węzeł ma problem z komunikacją z innymi węzłami w klastrze, jest zgłaszany jako offline. Istnieje wiele powodów, dla których węzeł lub węzły mogą być zgłaszane w tym stanie, począwszy od sprzętu, aż po system operacyjny. Najczęstszym wskaźnikiem awarii węzła są komunikaty o zdarzeniach. Jeśli węzeł utraci łączność z pozostałymi węzłami w klastrze, zgłaszane jest zdarzenie "węzeł w trybie offline":

2.21767  02/27 05:14 C    3    173520         Node 3 is offline

 

Jeśli wystąpi zdarzenie podobne do tego, sprawdź, czy węzeł został odzyskany, czy nadal jest w trybie offline. Aby to ustalić, użyj danych wyjściowych z isi status.

Jeśli dane wyjściowe stanu isi zgłaszają wszystkie węzły jako OK:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [  OK ]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           16.7T (20.3T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             22.0G (< 1%)
Avail:            0 (n/a)             16.7T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0| 524k| 524k|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |962.0|23.1M|23.1M|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  3|xxx.xxx.xxx.150 | OK  | C |    0|    0|    0|(No Storage HDDs)| 9.2G/ 5.6T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |962.0|23.7M|23.7M|(No Storage HDDs)|22.0G/16.7T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded
 

W tym przykładzie wszystkie węzły zgłaszają wartość OK. Oznacza to, że wszystkie węzły są w trybie online i należą do klastra. Sprawdź, czy ktoś ponownie uruchomił węzeł lub czy była wykonywana konserwacja. Jeśli nie masz pewności co do przyczyny ponownego uruchomienia, zbierz dzienniki i otwórz zgłoszenie serwisowe.

Jeśli isi status zgłasza węzeł w stanie Uwaga:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           15.0T (18.6T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             21.2G (< 1%)
Avail:            0 (n/a)             15.0T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C | 2.1k|16.9k|19.0k|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C | 1.8M|10.0M|11.9M|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  3|xxx.xxx.xxx.150 |-A-- | C | 4.0k|480.0| 4.5k|(No Storage HDDs)|10.7G/ 5.5T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              | 1.8M|10.0M|11.9M|(No Storage HDDs)|21.2G/15.0T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

Running jobs:
Job                        Impact Pri Policy     Phase Run Time
-------------------------- ------ --- ---------- ----- ----------
FlexProtectLin[520]        Medium 1   MEDIUM     4/4   0:00:34
        Job Description: Working on nodes: None   and drives: node3:bay1

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded

Dane wyjściowe stanu isi węzła pokazują go w Attention -A--, jest to wyzwalane przez zdarzenie krytyczne w klastrze. Węzeł w stanie Uwaga jest w trybie online i należy do klastra, ale zgłasza problem. Możesz użyć listy zdarzeń isi, aby zobaczyć, jakie zdarzenia krytyczne są zgłaszane dla węzła w Attention. W tym przypadku było to spowodowane zadaniem FlexProtectLin uruchomionym we wnęce dysku nr 1. Podobnie jak w przypadku stanu OK, warto ustalić, dlaczego węzeł został ponownie uruchomiony, jeśli to możliwe. Jeśli nie, zbierz dzienniki i otwórz zgłoszenie serwisowe.

Jeśli isi status zgłasza węzeł jako wyłączony:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           9.9T (13.5T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             12.7G (< 1%)
Avail:            0 (n/a)             9.9T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0|73.9k|73.9k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |    0|11.3k|11.3k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  3|xxx.xxx.xxx.150 |D--- | N |  n/a|  n/a|  n/a|  n/a/  n/a( n/a)|  n/a/  n/a( n/a)
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |  n/a|  n/a|  n/a|(No Storage HDDs)|12.7G/ 9.9T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------
02/27 05:14:20  3    Node 3 offline


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded
02/27 00:00:21  ShadowStoreDelete[516]     Succeeded

Dane wyjściowe stanu isi pokazują węzeł jako wyłączony D---, oznacza to, że węzeł nie może komunikować się z klastrem. Jeśli węzeł nie wyłącza się z znanego powodu (trwa konserwacja sprzętu, trwa aktualizacja systemu operacyjnego klastra itp.), sprawdź, czy możesz nawiązać połączenie z węzłem i natychmiast otworzyć zgłoszenie serwisowe.

Zdalne nawiązywanie łączności z wyłączonym węzłem

Jeśli węzeł nie działa, oznacza to, że nie może komunikować się z klastrem. Możliwe jest jednak, że nadal możesz połączyć się z węzłem. Nadal możesz zalogować się zdalnie lub za pośrednictwem połączenia szeregowego.

Z innego węzła w klastrze można spróbować połączyć się z węzłem działającym przy użyciu sieci wewnętrznej. Spróbuj wysłać polecenie ping na numer węzła clustername? Korzystanie z węzła 3 z powyższych danych wyjściowych:

testcluster-1# ping testcluster-3
PING testcluster-3 (128.221.254.3): 56 data bytes
64 bytes from 128.221.254.3: icmp_seq=0 ttl=64 time=0.048 ms
64 bytes from 128.221.254.3: icmp_seq=1 ttl=64 time=0.042 ms
64 bytes from 128.221.254.3: icmp_seq=2 ttl=64 time=0.043 ms
^C
--- testcluster-3 ping statistics ---
3 packets transmitted, 3 packets received, 0.0% packet loss

 W tym przykładzie udało nam się wykonać polecenie ping do numeru węzła nazwaklastra, mimo że węzeł jest zgłaszany jako wyłączony. Spróbujemy połączyć się z węzłem przez ssh i sprawdzić, czy możemy się połączyć.

Jeśli węzeł ma statycznie przypisany adres IP w sieci publicznej, możesz być w stanie się z nim połączyć. Aby określić, czy masz statycznie przypisany adres z klastra, użyj polecenia isi network:
 

testcluster-1# isi network interfaces list | grep Static
1    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.148
2    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.149
3    25gige-1     Unknown    -        groupnet0.subnet0.pool0 Static      192.168.1.150

 W tym przykładzie węzeł 3 w klastrze ma statycznie przypisany adres 192.168.1.150. Z innego węzła w klastrze lub stacji roboczej, która ma dostęp do tej sieci, spróbujemy wysłać polecenie ping na adres. Jeśli uda nam się pomyślnie pingować adres, spróbujemy nawiązać połączenie z węzłem za pomocą ssh.

Lokalne nawiązywanie łączności z niedziałającym węzłem

Jeśli ktoś jest na miejscu i ma komputer z portem szeregowym lub adapterem USB na port szeregowy i modemu zerowego lub szeregowy z adapterem modemu zerowego. Mogą łączyć się bezpośrednio z węzłem w celu rozwiązywania problemów. Informacje na temat łączenia się z portem szeregowym w węźle można znaleźć w PowerScale: Procedura umożliwiająca klientom nawiązanie połączenia z portem szeregowym, gdy połączenie zdalne nie jest możliwe

Affected Products

PowerScale, Isilon Gen6.5, Isilon Gen6, Isilon NL-Series, PowerScale OneFS, Isilon S-Series, Isilon Scale-out NAS, Isilon X-Series
Article Properties
Article Number: 000290053
Article Type: How To
Last Modified: 02 Jul 2025
Version:  1
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.