Что делать, если узел находится в состоянии «Down» или «Offline»

Summary: Как определить, что узел не работает, и способы подключения к узлу, находящемуся в выключенном состоянии.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Если у узла возникает проблема связи с другими узлами в кластере, сообщается, что он находится в автономном режиме. Существует множество причин, по которым узел или узлы могут отображаться в этом состоянии, от оборудования до операционной системы. Наиболее распространенным признаком того, что узел не работает, являются сообщения о событиях. Если узел теряет соединение с другими узлами в кластере, сообщается о событии «node offline».

2.21767  02/27 05:14 C    3    173520         Node 3 is offline

 

Если вы видите событие, подобное этому, определите, восстановлен ли узел или все еще находится в автономном режиме. Чтобы определить это, используйте выходные данные isi status.

Если в выводе isi status отображается состояние OK для всех узлов:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [  OK ]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           16.7T (20.3T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             22.0G (< 1%)
Avail:            0 (n/a)             16.7T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0| 524k| 524k|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |962.0|23.1M|23.1M|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  3|xxx.xxx.xxx.150 | OK  | C |    0|    0|    0|(No Storage HDDs)| 9.2G/ 5.6T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |962.0|23.7M|23.7M|(No Storage HDDs)|22.0G/16.7T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded
 

В данном примере все узлы сообщаются как OK. Это означает, что все узлы находятся в режиме онлайн и являются частью кластера. Определите, перезагрузил ли кто-то узел или выполняется обслуживание. Если вы не знаете причину перезагрузки, соберите журналы и откройте сервисную заявку.

Если состояние isi сообщает об узле в состоянии «Внимание»:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           15.0T (18.6T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             21.2G (< 1%)
Avail:            0 (n/a)             15.0T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C | 2.1k|16.9k|19.0k|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C | 1.8M|10.0M|11.9M|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  3|xxx.xxx.xxx.150 |-A-- | C | 4.0k|480.0| 4.5k|(No Storage HDDs)|10.7G/ 5.5T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              | 1.8M|10.0M|11.9M|(No Storage HDDs)|21.2G/15.0T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

Running jobs:
Job                        Impact Pri Policy     Phase Run Time
-------------------------- ------ --- ---------- ----- ----------
FlexProtectLin[520]        Medium 1   MEDIUM     4/4   0:00:34
        Job Description: Working on nodes: None   and drives: node3:bay1

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded

В выходных данных isi status узла отображается состояние Attention-A--, оно запускается критическим событием в кластере. Узел в состоянии «Внимание» находится в режиме онлайн и является частью кластера, но сообщает о проблеме. Список событий isi можно использовать для просмотра критических событий, о которых сообщается для узла в Attention. В данном случае это произошло из-за выполнения задания FlexProtectLin в отсеке диска 1. Как и в случае с состоянием «ОК», по возможности необходимо определить, почему узел перезагрузился. В противном случае необходимо собрать журналы и открыть сервисную заявку.

Если в состоянии isi узел не работает:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           9.9T (13.5T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             12.7G (< 1%)
Avail:            0 (n/a)             9.9T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0|73.9k|73.9k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |    0|11.3k|11.3k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  3|xxx.xxx.xxx.150 |D--- | N |  n/a|  n/a|  n/a|  n/a/  n/a( n/a)|  n/a/  n/a( n/a)
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |  n/a|  n/a|  n/a|(No Storage HDDs)|12.7G/ 9.9T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------
02/27 05:14:20  3    Node 3 offline


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded
02/27 00:00:21  ShadowStoreDelete[516]     Succeeded

В выходных данных состояния isi узел отображается как Down D---, это означает, что узел не может установить связь с кластером. Если узел не отключен по известной причине (выполняется техническое обслуживание оборудования, выполняется модернизация ОС кластера и т. д.), проверьте, можно ли установить подключение к узлу и немедленно открыть сервисную заявку.

Удаленное подключение к отключенному узлу

Если узел не работает, это означает, что он не может обмениваться данными с кластером. Однако вы все равно можете подключиться к узлу. Вы по-прежнему можете входить в систему удаленно или через последовательное соединение.

С другого узла в кластере можно попытаться подключиться к неработающему узлу, используя внутреннюю сеть. Попробуйте проверить связь с номером узла имени кластера? С помощью узла 3 из выходных данных выше:

testcluster-1# ping testcluster-3
PING testcluster-3 (128.221.254.3): 56 data bytes
64 bytes from 128.221.254.3: icmp_seq=0 ttl=64 time=0.048 ms
64 bytes from 128.221.254.3: icmp_seq=1 ttl=64 time=0.042 ms
64 bytes from 128.221.254.3: icmp_seq=2 ttl=64 time=0.043 ms
^C
--- testcluster-3 ping statistics ---
3 packets transmitted, 3 packets received, 0.0% packet loss

 В этом примере нам удалось проверить связь с номером узла с именем кластера, хотя узел сообщает об отключении. Мы попробуем подключиться к узлу по SSH и посмотрим, сможем ли мы подключиться.

Если у узла есть статически назначенный IP-адрес в вашей общедоступной сети, вы можете подключиться к нему. Чтобы определить, есть ли у вас статически назначенный адрес из кластера, используйте команду сети isi:
 

testcluster-1# isi network interfaces list | grep Static
1    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.148
2    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.149
3    25gige-1     Unknown    -        groupnet0.subnet0.pool0 Static      192.168.1.150

 В этом примере узлу 3 в кластере был статически назначен адрес 192.168.1.150. С другого узла в кластере или рабочей станции, имеющей доступ к этой сети, мы попытаемся проверить связь с адресом. Если нам удастся успешно проверить связь с адресом, мы попытаемся подключиться к узлу по SSH.

Локальное подключение к отключенному узлу

Если кто-то находится на площадке и у него есть компьютер с последовательным портом или адаптером USB/последовательный порт и нуль-модемным кабелем или последовательный кабель с нуль-модемным адаптером. Они могут подключаться непосредственно к узлу для поиска и устранения неисправностей. Информацию о подключении к последовательному порту узла можно найти в PowerScale. Действия заказчикам по подключению к последовательному порту, если удаленное подключение невозможно

Affected Products

PowerScale, Isilon Gen6.5, Isilon Gen6, Isilon NL-Series, PowerScale OneFS, Isilon S-Series, Isilon Scale-out NAS, Isilon X-Series
Article Properties
Article Number: 000290053
Article Type: How To
Last Modified: 02 Jul 2025
Version:  1
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.