Що робити, коли вузол повідомляє про стан «Не працює» або «Не в мережі»

Summary: Як визначити, що вузол не працює, і способи підключення до вузла в непрацюючому стані.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Щоразу, коли вузол має проблеми зі зв'язком з іншими вузлами кластера, він повідомляється як автономний. Існує багато причин, через які вузол або вузли можуть бути повідомлені в такому стані, від апаратного забезпечення до ОС. Найпоширенішим показником того, що вузол не працює, є повідомлення про події. Якщо вузол втрачає зв'язок з рештою вузлів кластера, повідомляється про подію «вузол в автономному режимі»:

2.21767  02/27 05:14 C    3    173520         Node 3 is offline

 

Якщо ви бачите подію, подібну до цієї, визначте, чи вузол відновився, чи він все ще перебуває в автономному режимі. Щоб визначити це, скористайтеся виведенням зі стану isi.

Якщо вихід статусу isi повідомляє про всі вузли як OK:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [  OK ]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           16.7T (20.3T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             22.0G (< 1%)
Avail:            0 (n/a)             16.7T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0| 524k| 524k|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |962.0|23.1M|23.1M|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  3|xxx.xxx.xxx.150 | OK  | C |    0|    0|    0|(No Storage HDDs)| 9.2G/ 5.6T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |962.0|23.7M|23.7M|(No Storage HDDs)|22.0G/16.7T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded
 

У цьому прикладі всі вузли повідомляють як OK. Це вказує на те, що всі вузли знаходяться в мережі і є частиною кластера. Визначте, чи хтось перезавантажив вузол або проводилося технічне обслуговування. Якщо ви не впевнені в причині перезавантаження, вам варто зібрати журнали та відкрити запит на обслуговування.

Якщо статус isi повідомляє вузол у Attention:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           15.0T (18.6T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             21.2G (< 1%)
Avail:            0 (n/a)             15.0T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C | 2.1k|16.9k|19.0k|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C | 1.8M|10.0M|11.9M|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  3|xxx.xxx.xxx.150 |-A-- | C | 4.0k|480.0| 4.5k|(No Storage HDDs)|10.7G/ 5.5T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              | 1.8M|10.0M|11.9M|(No Storage HDDs)|21.2G/15.0T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

Running jobs:
Job                        Impact Pri Policy     Phase Run Time
-------------------------- ------ --- ---------- ----- ----------
FlexProtectLin[520]        Medium 1   MEDIUM     4/4   0:00:34
        Job Description: Working on nodes: None   and drives: node3:bay1

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded

Вихід статусу isi на вузлі показує його в точці Увага -A--, це викликається критичною подією на кластері. Вузол у стані Attention знаходиться в мережі та є частиною кластера, але повідомляє про проблему. Ви можете використовувати список подій isi, щоб побачити, про які критичні події повідомляється для вузла в розділі Увага. У цьому випадку це було пов'язано з роботою FlexProtectLin, яка працювала проти відсіку диска 1. Як і у випадку зі станом OK, ви захочете визначити, чому вузол перезавантажився, якщо це можливо. Якщо ні, вам варто зібрати журнали та відкрити запит на обслуговування.

Якщо статус isi повідомляє вузол як Down:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           9.9T (13.5T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             12.7G (< 1%)
Avail:            0 (n/a)             9.9T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0|73.9k|73.9k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |    0|11.3k|11.3k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  3|xxx.xxx.xxx.150 |D--- | N |  n/a|  n/a|  n/a|  n/a/  n/a( n/a)|  n/a/  n/a( n/a)
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |  n/a|  n/a|  n/a|(No Storage HDDs)|12.7G/ 9.9T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------
02/27 05:14:20  3    Node 3 offline


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded
02/27 00:00:21  ShadowStoreDelete[516]     Succeeded

Вихід статусу isi показує вузол як Down D---, це вказує на те, що вузол не може зв'язатися з кластером. Якщо вузол не вийшов з ладу з відомої причини (виконується технічне обслуговування обладнання, оновлюється кластерна ОС і т.д.), подивіться, чи можна встановити підключення до вузла, і негайно відкрийте запит на обслуговування.

Віддалене встановлення з'єднання з несправним вузлом

Якщо вузол не працює, це означає, що він не може зв'язатися з кластером. Хоча не виключено, що ви все ще можете підключитися до вузла. Ви все ще можете входити в систему віддалено або за допомогою послідовного з'єднання.

З іншого вузла кластера ви можете спробувати підключитися до нижнього вузла за допомогою внутрішньої мережі. Спробуйте пропінгувати номер вузла кластера? Використовуючи вузол 3 з виводу вище:

testcluster-1# ping testcluster-3
PING testcluster-3 (128.221.254.3): 56 data bytes
64 bytes from 128.221.254.3: icmp_seq=0 ttl=64 time=0.048 ms
64 bytes from 128.221.254.3: icmp_seq=1 ttl=64 time=0.042 ms
64 bytes from 128.221.254.3: icmp_seq=2 ttl=64 time=0.043 ms
^C
--- testcluster-3 ping statistics ---
3 packets transmitted, 3 packets received, 0.0% packet loss

 У цьому прикладі ми змогли пропінгувати номер вузла кластера, навіть якщо вузол повідомляє про те, що він не працює. Ми б спробували ssh до вузла і подивилися, чи зможемо ми підключитися.

Якщо вузол має статично призначену IP-адресу у вашій загальнодоступній мережі, ви можете підключитися до неї. Щоб визначити, чи є у вас статично призначена адреса з кластера, використовуйте команду мережі isi:
 

testcluster-1# isi network interfaces list | grep Static
1    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.148
2    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.149
3    25gige-1     Unknown    -        groupnet0.subnet0.pool0 Static      192.168.1.150

 У цьому прикладі вузол 3 у кластері має статично призначену адресу 192.168.1.150. З іншого вузла кластера або робочої станції, яка має доступ до цієї мережі, ми спробуємо пропінгувати адресу. Якщо ми зможемо успішно пропінгувати адресу, ми спробуємо проникнути в вузол.

Локальне встановлення з'єднання з нижнім вузлом

Якщо хтось знаходиться на місці і у нього є комп'ютер із послідовним портом або адаптером usb-послідовний пристрій і нульовим модемним кабелем або послідовним кабелем із адаптером null модему. Вони можуть підключатися безпосередньо до вузла з метою усунення несправностей. Інформацію про те, як підключитися до послідовного порту на вузлі, можна знайти в PowerScale: Кроки для підключення клієнтів до послідовного порту, коли віддалене підключення неможливе

Affected Products

PowerScale, Isilon Gen6.5, Isilon Gen6, Isilon NL-Series, PowerScale OneFS, Isilon S-Series, Isilon Scale-out NAS, Isilon X-Series
Article Properties
Article Number: 000290053
Article Type: How To
Last Modified: 02 Jul 2025
Version:  1
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.