Що робити, коли вузол повідомляє про стан «Не працює» або «Не в мережі»
Summary: Як визначити, що вузол не працює, і способи підключення до вузла в непрацюючому стані.
Instructions
Щоразу, коли вузол має проблеми зі зв'язком з іншими вузлами кластера, він повідомляється як автономний. Існує багато причин, через які вузол або вузли можуть бути повідомлені в такому стані, від апаратного забезпечення до ОС. Найпоширенішим показником того, що вузол не працює, є повідомлення про події. Якщо вузол втрачає зв'язок з рештою вузлів кластера, повідомляється про подію «вузол в автономному режимі»:
2.21767 02/27 05:14 C 3 173520 Node 3 is offline
Якщо ви бачите подію, подібну до цієї, визначте, чи вузол відновився, чи він все ще перебуває в автономному режимі. Щоб визначити це, скористайтеся виведенням зі стану isi.
Якщо вихід статусу isi повідомляє про всі вузли як OK:
testcluster-1# isi status Cluster Name: testcluster Cluster Health: [ OK ] Data Reduction: 1.33 : 1 Storage Efficiency: 0.72 : 1 Cluster Storage: HDD SSD Storage Size: 0 (0 Raw) 16.7T (20.3T Raw) VHS Size: 3.6T Used: 0 (n/a) 22.0G (< 1%) Avail: 0 (n/a) 16.7T (> 99%) Health Ext Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size ---+----------------+-----+---+-----+-----+-----+-----------------+----------------- 1|xxx.xxx.xxx.148 | OK | C | 0| 524k| 524k|(No Storage HDDs)| 6.4G/ 5.6T(< 1%) 2|xxx.xxx.xxx.149 | OK | C |962.0|23.1M|23.1M|(No Storage HDDs)| 6.4G/ 5.6T(< 1%) 3|xxx.xxx.xxx.150 | OK | C | 0| 0| 0|(No Storage HDDs)| 9.2G/ 5.6T(< 1%) ---+----------------+-----+---+-----+-----+-----+-----------------+----------------- Cluster Totals: |962.0|23.7M|23.7M|(No Storage HDDs)|22.0G/16.7T(< 1%) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only External Network Fields: C = Connected, N = Not Connected Critical Events: Time LNN Event --------------- ---- ------------------------------------------------------- Cluster Job Status: No running jobs. No paused or waiting jobs. No failed jobs. Recent job results: Time Job Event --------------- -------------------------- ------------------------------ 02/27 04:00:38 ShadowStoreProtect[518] Succeeded 02/27 02:00:14 WormQueue[517] Succeeded
У цьому прикладі всі вузли повідомляють як OK. Це вказує на те, що всі вузли знаходяться в мережі і є частиною кластера. Визначте, чи хтось перезавантажив вузол або проводилося технічне обслуговування. Якщо ви не впевнені в причині перезавантаження, вам варто зібрати журнали та відкрити запит на обслуговування.
Якщо статус isi повідомляє вузол у Attention:
testcluster-1# isi status
Cluster Name: testcluster
Cluster Health: [ ATTN]
Data Reduction: 1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage: HDD SSD Storage
Size: 0 (0 Raw) 15.0T (18.6T Raw)
VHS Size: 3.6T
Used: 0 (n/a) 21.2G (< 1%)
Avail: 0 (n/a) 15.0T (> 99%)
Health Ext Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
1|xxx.xxx.xxx.148 | OK | C | 2.1k|16.9k|19.0k|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
2|xxx.xxx.xxx.149 | OK | C | 1.8M|10.0M|11.9M|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
3|xxx.xxx.xxx.150 |-A-- | C | 4.0k|480.0| 4.5k|(No Storage HDDs)|10.7G/ 5.5T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals: | 1.8M|10.0M|11.9M|(No Storage HDDs)|21.2G/15.0T(< 1%)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
External Network Fields: C = Connected, N = Not Connected
Critical Events:
Time LNN Event
--------------- ---- -------------------------------------------------------
Cluster Job Status:
Running jobs:
Job Impact Pri Policy Phase Run Time
-------------------------- ------ --- ---------- ----- ----------
FlexProtectLin[520] Medium 1 MEDIUM 4/4 0:00:34
Job Description: Working on nodes: None and drives: node3:bay1
No paused or waiting jobs.
No failed jobs.
Recent job results:
Time Job Event
--------------- -------------------------- ------------------------------
02/27 04:00:38 ShadowStoreProtect[518] Succeeded
02/27 02:00:14 WormQueue[517] Succeeded
Вихід статусу isi на вузлі показує його в точці Увага -A--, це викликається критичною подією на кластері. Вузол у стані Attention знаходиться в мережі та є частиною кластера, але повідомляє про проблему. Ви можете використовувати список подій isi, щоб побачити, про які критичні події повідомляється для вузла в розділі Увага. У цьому випадку це було пов'язано з роботою FlexProtectLin, яка працювала проти відсіку диска 1. Як і у випадку зі станом OK, ви захочете визначити, чому вузол перезавантажився, якщо це можливо. Якщо ні, вам варто зібрати журнали та відкрити запит на обслуговування.
Якщо статус isi повідомляє вузол як Down:
testcluster-1# isi status
Cluster Name: testcluster
Cluster Health: [ ATTN]
Data Reduction: 1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage: HDD SSD Storage
Size: 0 (0 Raw) 9.9T (13.5T Raw)
VHS Size: 3.6T
Used: 0 (n/a) 12.7G (< 1%)
Avail: 0 (n/a) 9.9T (> 99%)
Health Ext Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
1|xxx.xxx.xxx.148 | OK | C | 0|73.9k|73.9k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
2|xxx.xxx.xxx.149 | OK | C | 0|11.3k|11.3k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
3|xxx.xxx.xxx.150 |D--- | N | n/a| n/a| n/a| n/a/ n/a( n/a)| n/a/ n/a( n/a)
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals: | n/a| n/a| n/a|(No Storage HDDs)|12.7G/ 9.9T(< 1%)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
External Network Fields: C = Connected, N = Not Connected
Critical Events:
Time LNN Event
--------------- ---- -------------------------------------------------------
02/27 05:14:20 3 Node 3 offline
Cluster Job Status:
No running jobs.
No paused or waiting jobs.
No failed jobs.
Recent job results:
Time Job Event
--------------- -------------------------- ------------------------------
02/27 04:00:38 ShadowStoreProtect[518] Succeeded
02/27 02:00:14 WormQueue[517] Succeeded
02/27 00:00:21 ShadowStoreDelete[516] Succeeded
Вихід статусу isi показує вузол як Down D---, це вказує на те, що вузол не може зв'язатися з кластером. Якщо вузол не вийшов з ладу з відомої причини (виконується технічне обслуговування обладнання, оновлюється кластерна ОС і т.д.), подивіться, чи можна встановити підключення до вузла, і негайно відкрийте запит на обслуговування.
Віддалене встановлення з'єднання з несправним вузлом
Якщо вузол не працює, це означає, що він не може зв'язатися з кластером. Хоча не виключено, що ви все ще можете підключитися до вузла. Ви все ще можете входити в систему віддалено або за допомогою послідовного з'єднання.
З іншого вузла кластера ви можете спробувати підключитися до нижнього вузла за допомогою внутрішньої мережі. Спробуйте пропінгувати номер вузла кластера? Використовуючи вузол 3 з виводу вище:
testcluster-1# ping testcluster-3 PING testcluster-3 (128.221.254.3): 56 data bytes 64 bytes from 128.221.254.3: icmp_seq=0 ttl=64 time=0.048 ms 64 bytes from 128.221.254.3: icmp_seq=1 ttl=64 time=0.042 ms 64 bytes from 128.221.254.3: icmp_seq=2 ttl=64 time=0.043 ms ^C --- testcluster-3 ping statistics --- 3 packets transmitted, 3 packets received, 0.0% packet loss
У цьому прикладі ми змогли пропінгувати номер вузла кластера, навіть якщо вузол повідомляє про те, що він не працює. Ми б спробували ssh до вузла і подивилися, чи зможемо ми підключитися.
Якщо вузол має статично призначену IP-адресу у вашій загальнодоступній мережі, ви можете підключитися до неї. Щоб визначити, чи є у вас статично призначена адреса з кластера, використовуйте команду мережі isi:
testcluster-1# isi network interfaces list | grep Static 1 25gige-1 Up - groupnet0.subnet0.pool0 Static 192.168.1.148 2 25gige-1 Up - groupnet0.subnet0.pool0 Static 192.168.1.149 3 25gige-1 Unknown - groupnet0.subnet0.pool0 Static 192.168.1.150
У цьому прикладі вузол 3 у кластері має статично призначену адресу 192.168.1.150. З іншого вузла кластера або робочої станції, яка має доступ до цієї мережі, ми спробуємо пропінгувати адресу. Якщо ми зможемо успішно пропінгувати адресу, ми спробуємо проникнути в вузол.
Локальне встановлення з'єднання з нижнім вузлом
Якщо хтось знаходиться на місці і у нього є комп'ютер із послідовним портом або адаптером usb-послідовний пристрій і нульовим модемним кабелем або послідовним кабелем із адаптером null модему. Вони можуть підключатися безпосередньо до вузла з метою усунення несправностей. Інформацію про те, як підключитися до послідовного порту на вузлі, можна знайти в PowerScale: Кроки для підключення клієнтів до послідовного порту, коли віддалене підключення неможливе