Що робити, коли вузол повідомляє як Вимкнений або Офлайн

Zusammenfassung: Як визначити, чи вузол не працює, і як підключитися до вузла у режимі down.

Dieser Artikel gilt für Dieser Artikel gilt nicht für Dieser Artikel ist nicht an ein bestimmtes Produkt gebunden. In diesem Artikel werden nicht alle Produktversionen aufgeführt.

Weisungen

Щоразу, коли вузол має проблеми з спілкуванням з іншими вузлами кластера, він повідомляється як офлайн. Існує багато причин, чому вузол або вузли можуть бути повідомлені в такому стані — від апаратного забезпечення до ОС. Найпоширенішим показником відключення вузла є повідомлення про події. Якщо вузол втрачає зв'язок із рештою вузлів кластера, повідомляється про подію «вузол офлайн»:

2.21767  02/27 05:14 C    3    173520         Node 3 is offline

 

Якщо ви бачите подібну подію, визначте, чи вузол відновився, чи він досі офлайн. Щоб визначити це, використовуйте вихідні дані зі статусу isi.

Якщо вихідний результат статусу isi повідомляє всі вузли як ОК:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [  OK ]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           16.7T (20.3T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             22.0G (< 1%)
Avail:            0 (n/a)             16.7T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0| 524k| 524k|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |962.0|23.1M|23.1M|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  3|xxx.xxx.xxx.150 | OK  | C |    0|    0|    0|(No Storage HDDs)| 9.2G/ 5.6T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |962.0|23.7M|23.7M|(No Storage HDDs)|22.0G/16.7T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded
 

У цьому прикладі всі вузли відображаються як OK. Це свідчить про те, що всі вузли перебувають онлайн і є частиною кластера. Визначте, чи хтось перезавантажив вузол, чи проводилося технічне обслуговування. Якщо ви не впевнені в причині перезавантаження, варто зібрати журнали та відкрити запит на сервіс.

Якщо статус isi повідомляє про вузол у Attention:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           15.0T (18.6T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             21.2G (< 1%)
Avail:            0 (n/a)             15.0T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C | 2.1k|16.9k|19.0k|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C | 1.8M|10.0M|11.9M|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  3|xxx.xxx.xxx.150 |-A-- | C | 4.0k|480.0| 4.5k|(No Storage HDDs)|10.7G/ 5.5T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              | 1.8M|10.0M|11.9M|(No Storage HDDs)|21.2G/15.0T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

Running jobs:
Job                        Impact Pri Policy     Phase Run Time
-------------------------- ------ --- ---------- ----- ----------
FlexProtectLin[520]        Medium 1   MEDIUM     4/4   0:00:34
        Job Description: Working on nodes: None   and drives: node3:bay1

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded

Вихідний сигнал статусу isi на вузлі показує Attention -A--, що вказує на критичну подію в кластері. Вузол у стані Attention працює онлайн і є частиною кластера, але повідомляє про проблему. Ви можете скористатися isi event list, щоб побачити, які критичні події повідомляються для вузла в Attention. У цьому випадку це сталося через роботу FlexProtectLin, яка працювала проти дискового відсіку 1. Як і у випадку з OK-станом, вам потрібно з'ясувати, чому вузол перезавантажився, якщо це можливо. Якщо ні, варто зібрати журнали і відкрити запит на сервіс.

Якщо статус isi повідомляє вузол як Down:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           9.9T (13.5T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             12.7G (< 1%)
Avail:            0 (n/a)             9.9T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0|73.9k|73.9k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |    0|11.3k|11.3k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  3|xxx.xxx.xxx.150 |D--- | N |  n/a|  n/a|  n/a|  n/a/  n/a( n/a)|  n/a/  n/a( n/a)
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |  n/a|  n/a|  n/a|(No Storage HDDs)|12.7G/ 9.9T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------
02/27 05:14:20  3    Node 3 offline


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded
02/27 00:00:21  ShadowStoreDelete[516]     Succeeded

Вихід статусу isi показує вузол як Down D---, що означає, що вузол не може спілкуватися з кластером. Якщо вузол не працює з відомої причини, спробуйте встановити зв'язок із вузлом і негайно відкрити запит на сервіс.

Встановлення зв'язку з вузлом вниз дистанційно

Якщо вузол не працює, це означає, що він не може спілкуватися з кластером. Можливо, ви все одно зможете підключитися до вузла. Можливо, ви все ще зможете увійти дистанційно або через послідовне з'єднання.

З іншого вузла кластера можна спробувати підключитися до вузла вниз через внутрішню мережу. Спробуйте пінгувати номер node-name-cluster? Використовуючи вузол 3 з наведеного вище виходу:

testcluster-1# ping testcluster-3
PING testcluster-3 (128.221.254.3): 56 data bytes
64 bytes from 128.221.254.3: icmp_seq=0 ttl=64 time=0.048 ms
64 bytes from 128.221.254.3: icmp_seq=1 ttl=64 time=0.042 ms
64 bytes from 128.221.254.3: icmp_seq=2 ttl=64 time=0.043 ms
^C
--- testcluster-3 ping statistics ---
3 packets transmitted, 3 packets received, 0.0% packet loss

 У цьому прикладі ми могли б пінгувати номер кластерного вузла, навіть якщо вузол показує як вимкнений. Ми б спробували підключитися до вузла через ssh і подивитися, чи зможемо підключитися.

Якщо вузол має статично призначену IP-адресу у вашій публічній мережі, можливо, ви зможете підключитися до неї. Визначте, чи є у вас статично призначена адреса від кластера, скористайтеся командою ISI network:
 

testcluster-1# isi network interfaces list | grep Static
1    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.148
2    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.149
3    25gige-1     Unknown    -        groupnet0.subnet0.pool0 Static      192.168.1.150

 У цьому прикладі вузол 3 у кластері має статично призначену адресу 192.168.1.150. З іншого вузла кластера або робочої станції, яка має доступ до цієї мережі, ми намагалися пінгувати адресу. Якщо ми успішно зможемо пінгувати адресу, ми спробуємо підключитися до вузла ssh.

Встановлення локального зв'язку з вузлом внизу

Якщо хтось присутній на місці і:

  • У них є комп'ютер із послідовним портом або USB-послідовним адаптером
  • Кабель null модему або послідовний кабель з null modem adapter.
Вони можуть підключатися безпосередньо до вузла для усунення несправностей. Інформацію про підключення до послідовного порту вузла можна знайти у PowerScale: Кроки для клієнтів щодо підключення до послідовного порту, коли віддалене підключення неможливе

Betroffene Produkte

PowerScale, Isilon Gen6.5, Isilon Gen6, Isilon NL-Series, PowerScale OneFS, Isilon S-Series, Isilon Scale-out NAS, Isilon X-Series
Artikeleigenschaften
Artikelnummer: 000290053
Artikeltyp: How To
Zuletzt geändert: 06 Feb. 2026
Version:  2
Antworten auf Ihre Fragen erhalten Sie von anderen Dell NutzerInnen
Support Services
Prüfen Sie, ob Ihr Gerät durch Support Services abgedeckt ist.