Что делать, если узел находится в состоянии «Down» или «Offline»

Zusammenfassung: Как определить, что узел не работает, и способы подключения к узлу, находящемуся в выключенном состоянии.

Dieser Artikel gilt für Dieser Artikel gilt nicht für Dieser Artikel ist nicht an ein bestimmtes Produkt gebunden. In diesem Artikel werden nicht alle Produktversionen aufgeführt.

Weisungen

Если у узла возникает проблема связи с другими узлами в кластере, сообщается, что он находится в автономном режиме. Существует множество причин, по которым узел или узлы могут отображаться в этом состоянии, от оборудования до операционной системы. Наиболее распространенным признаком того, что узел не работает, являются сообщения о событиях. Если узел теряет соединение с другими узлами в кластере, сообщается о событии «node offline».

2.21767  02/27 05:14 C    3    173520         Node 3 is offline

 

Если вы видите событие, подобное этому, определите, восстановлен ли узел или все еще находится в автономном режиме. Чтобы определить это, используйте выходные данные isi status.

Если в выводе isi status отображается состояние OK для всех узлов:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [  OK ]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           16.7T (20.3T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             22.0G (< 1%)
Avail:            0 (n/a)             16.7T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0| 524k| 524k|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |962.0|23.1M|23.1M|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  3|xxx.xxx.xxx.150 | OK  | C |    0|    0|    0|(No Storage HDDs)| 9.2G/ 5.6T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |962.0|23.7M|23.7M|(No Storage HDDs)|22.0G/16.7T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded
 

В данном примере все узлы сообщаются как OK. Это означает, что все узлы находятся в режиме онлайн и являются частью кластера. Определите, перезагрузил ли кто-то узел или выполняется обслуживание. Если вы не знаете причину перезагрузки, соберите журналы и откройте сервисную заявку.

Если состояние isi сообщает об узле в состоянии «Внимание»:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           15.0T (18.6T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             21.2G (< 1%)
Avail:            0 (n/a)             15.0T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C | 2.1k|16.9k|19.0k|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C | 1.8M|10.0M|11.9M|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  3|xxx.xxx.xxx.150 |-A-- | C | 4.0k|480.0| 4.5k|(No Storage HDDs)|10.7G/ 5.5T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              | 1.8M|10.0M|11.9M|(No Storage HDDs)|21.2G/15.0T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

Running jobs:
Job                        Impact Pri Policy     Phase Run Time
-------------------------- ------ --- ---------- ----- ----------
FlexProtectLin[520]        Medium 1   MEDIUM     4/4   0:00:34
        Job Description: Working on nodes: None   and drives: node3:bay1

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded

В выходных данных состояния isi узла отображается состояние Attention-A--, это указывает на критическое событие в кластере. Узел в состоянии «Внимание» находится в режиме онлайн и является частью кластера, но сообщает о проблеме. Список событий isi можно использовать для просмотра критических событий, о которых сообщается для узла в Attention. В данном случае это произошло из-за выполнения задания FlexProtectLin в отсеке диска 1. Как и в случае с состоянием «ОК», по возможности необходимо определить, почему узел перезагрузился. В противном случае необходимо собрать журналы и открыть сервисную заявку.

Если в состоянии isi узел не работает:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           9.9T (13.5T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             12.7G (< 1%)
Avail:            0 (n/a)             9.9T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0|73.9k|73.9k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |    0|11.3k|11.3k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  3|xxx.xxx.xxx.150 |D--- | N |  n/a|  n/a|  n/a|  n/a/  n/a( n/a)|  n/a/  n/a( n/a)
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |  n/a|  n/a|  n/a|(No Storage HDDs)|12.7G/ 9.9T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------
02/27 05:14:20  3    Node 3 offline


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded
02/27 00:00:21  ShadowStoreDelete[516]     Succeeded

В выходных данных состояния isi узел отображается как Down D---, это означает, что узел не может установить связь с кластером. Если узел не отключен по известной причине, проверьте, можно ли подключиться к узлу и немедленно открыть сервисную заявку.

Удаленное подключение к отключенному узлу

Если узел не работает, это означает, что он не может обмениваться данными с кластером. Однако вы все равно можете подключиться к узлу. Вы по-прежнему можете входить в систему удаленно или через последовательное соединение.

С другого узла в кластере можно попытаться подключиться к неработающему узлу, используя внутреннюю сеть. Попробуйте проверить связь с номером узла имени кластера? С помощью узла 3 из выходных данных выше:

testcluster-1# ping testcluster-3
PING testcluster-3 (128.221.254.3): 56 data bytes
64 bytes from 128.221.254.3: icmp_seq=0 ttl=64 time=0.048 ms
64 bytes from 128.221.254.3: icmp_seq=1 ttl=64 time=0.042 ms
64 bytes from 128.221.254.3: icmp_seq=2 ttl=64 time=0.043 ms
^C
--- testcluster-3 ping statistics ---
3 packets transmitted, 3 packets received, 0.0% packet loss

 В этом примере мы можем проверить связь с номером узла «имя кластера», даже если узел сообщает об отключении. Мы попробуем подключиться к узлу по SSH и посмотрим, сможем ли мы подключиться.

Если у узла есть статически назначенный IP-адрес в вашей общедоступной сети, вы можете подключиться к нему. Определите, есть ли у вас статически назначенный адрес из кластера, с помощью команды isi network:
 

testcluster-1# isi network interfaces list | grep Static
1    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.148
2    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.149
3    25gige-1     Unknown    -        groupnet0.subnet0.pool0 Static      192.168.1.150

 В этом примере узлу 3 в кластере был статически назначен адрес 192.168.1.150. С другого узла в кластере или рабочей станции, имеющей доступ к этой сети, мы попытаемся проверить связь с адресом. Если нам удастся успешно проверить связь с адресом, мы попытаемся подключиться к узлу по SSH.

Локальное подключение к отключенному узлу

Если кто-то находится на месте и:

  • У них есть компьютер с последовательным портом или адаптером USB/последовательный порт
  • Нуль-модемный кабель или последовательный кабель с нуль-модемным адаптером.
Они могут подключаться непосредственно к узлу для поиска и устранения неисправностей. Информацию о подключении к последовательному порту узла можно найти в PowerScale. Действия заказчикам по подключению к последовательному порту, если удаленное подключение невозможно

Betroffene Produkte

PowerScale, Isilon Gen6.5, Isilon Gen6, Isilon NL-Series, PowerScale OneFS, Isilon S-Series, Isilon Scale-out NAS, Isilon X-Series
Artikeleigenschaften
Artikelnummer: 000290053
Artikeltyp: How To
Zuletzt geändert: 06 Feb. 2026
Version:  2
Antworten auf Ihre Fragen erhalten Sie von anderen Dell NutzerInnen
Support Services
Prüfen Sie, ob Ihr Gerät durch Support Services abgedeckt ist.