Що робити, коли вузол повідомляє як Вимкнений або Офлайн
Zusammenfassung: Як визначити, чи вузол не працює, і як підключитися до вузла у режимі down.
Weisungen
Щоразу, коли вузол має проблеми з спілкуванням з іншими вузлами кластера, він повідомляється як офлайн. Існує багато причин, чому вузол або вузли можуть бути повідомлені в такому стані — від апаратного забезпечення до ОС. Найпоширенішим показником відключення вузла є повідомлення про події. Якщо вузол втрачає зв'язок із рештою вузлів кластера, повідомляється про подію «вузол офлайн»:
2.21767 02/27 05:14 C 3 173520 Node 3 is offline
Якщо ви бачите подібну подію, визначте, чи вузол відновився, чи він досі офлайн. Щоб визначити це, використовуйте вихідні дані зі статусу isi.
Якщо вихідний результат статусу isi повідомляє всі вузли як ОК:
testcluster-1# isi status Cluster Name: testcluster Cluster Health: [ OK ] Data Reduction: 1.33 : 1 Storage Efficiency: 0.72 : 1 Cluster Storage: HDD SSD Storage Size: 0 (0 Raw) 16.7T (20.3T Raw) VHS Size: 3.6T Used: 0 (n/a) 22.0G (< 1%) Avail: 0 (n/a) 16.7T (> 99%) Health Ext Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size ---+----------------+-----+---+-----+-----+-----+-----------------+----------------- 1|xxx.xxx.xxx.148 | OK | C | 0| 524k| 524k|(No Storage HDDs)| 6.4G/ 5.6T(< 1%) 2|xxx.xxx.xxx.149 | OK | C |962.0|23.1M|23.1M|(No Storage HDDs)| 6.4G/ 5.6T(< 1%) 3|xxx.xxx.xxx.150 | OK | C | 0| 0| 0|(No Storage HDDs)| 9.2G/ 5.6T(< 1%) ---+----------------+-----+---+-----+-----+-----+-----------------+----------------- Cluster Totals: |962.0|23.7M|23.7M|(No Storage HDDs)|22.0G/16.7T(< 1%) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only External Network Fields: C = Connected, N = Not Connected Critical Events: Time LNN Event --------------- ---- ------------------------------------------------------- Cluster Job Status: No running jobs. No paused or waiting jobs. No failed jobs. Recent job results: Time Job Event --------------- -------------------------- ------------------------------ 02/27 04:00:38 ShadowStoreProtect[518] Succeeded 02/27 02:00:14 WormQueue[517] Succeeded
У цьому прикладі всі вузли відображаються як OK. Це свідчить про те, що всі вузли перебувають онлайн і є частиною кластера. Визначте, чи хтось перезавантажив вузол, чи проводилося технічне обслуговування. Якщо ви не впевнені в причині перезавантаження, варто зібрати журнали та відкрити запит на сервіс.
Якщо статус isi повідомляє про вузол у Attention:
testcluster-1# isi status
Cluster Name: testcluster
Cluster Health: [ ATTN]
Data Reduction: 1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage: HDD SSD Storage
Size: 0 (0 Raw) 15.0T (18.6T Raw)
VHS Size: 3.6T
Used: 0 (n/a) 21.2G (< 1%)
Avail: 0 (n/a) 15.0T (> 99%)
Health Ext Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
1|xxx.xxx.xxx.148 | OK | C | 2.1k|16.9k|19.0k|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
2|xxx.xxx.xxx.149 | OK | C | 1.8M|10.0M|11.9M|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
3|xxx.xxx.xxx.150 |-A-- | C | 4.0k|480.0| 4.5k|(No Storage HDDs)|10.7G/ 5.5T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals: | 1.8M|10.0M|11.9M|(No Storage HDDs)|21.2G/15.0T(< 1%)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
External Network Fields: C = Connected, N = Not Connected
Critical Events:
Time LNN Event
--------------- ---- -------------------------------------------------------
Cluster Job Status:
Running jobs:
Job Impact Pri Policy Phase Run Time
-------------------------- ------ --- ---------- ----- ----------
FlexProtectLin[520] Medium 1 MEDIUM 4/4 0:00:34
Job Description: Working on nodes: None and drives: node3:bay1
No paused or waiting jobs.
No failed jobs.
Recent job results:
Time Job Event
--------------- -------------------------- ------------------------------
02/27 04:00:38 ShadowStoreProtect[518] Succeeded
02/27 02:00:14 WormQueue[517] Succeeded
Вихідний сигнал статусу isi на вузлі показує Attention -A--, що вказує на критичну подію в кластері. Вузол у стані Attention працює онлайн і є частиною кластера, але повідомляє про проблему. Ви можете скористатися isi event list, щоб побачити, які критичні події повідомляються для вузла в Attention. У цьому випадку це сталося через роботу FlexProtectLin, яка працювала проти дискового відсіку 1. Як і у випадку з OK-станом, вам потрібно з'ясувати, чому вузол перезавантажився, якщо це можливо. Якщо ні, варто зібрати журнали і відкрити запит на сервіс.
Якщо статус isi повідомляє вузол як Down:
testcluster-1# isi status
Cluster Name: testcluster
Cluster Health: [ ATTN]
Data Reduction: 1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage: HDD SSD Storage
Size: 0 (0 Raw) 9.9T (13.5T Raw)
VHS Size: 3.6T
Used: 0 (n/a) 12.7G (< 1%)
Avail: 0 (n/a) 9.9T (> 99%)
Health Ext Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
1|xxx.xxx.xxx.148 | OK | C | 0|73.9k|73.9k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
2|xxx.xxx.xxx.149 | OK | C | 0|11.3k|11.3k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
3|xxx.xxx.xxx.150 |D--- | N | n/a| n/a| n/a| n/a/ n/a( n/a)| n/a/ n/a( n/a)
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals: | n/a| n/a| n/a|(No Storage HDDs)|12.7G/ 9.9T(< 1%)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
External Network Fields: C = Connected, N = Not Connected
Critical Events:
Time LNN Event
--------------- ---- -------------------------------------------------------
02/27 05:14:20 3 Node 3 offline
Cluster Job Status:
No running jobs.
No paused or waiting jobs.
No failed jobs.
Recent job results:
Time Job Event
--------------- -------------------------- ------------------------------
02/27 04:00:38 ShadowStoreProtect[518] Succeeded
02/27 02:00:14 WormQueue[517] Succeeded
02/27 00:00:21 ShadowStoreDelete[516] Succeeded
Вихід статусу isi показує вузол як Down D---, що означає, що вузол не може спілкуватися з кластером. Якщо вузол не працює з відомої причини, спробуйте встановити зв'язок із вузлом і негайно відкрити запит на сервіс.
Встановлення зв'язку з вузлом вниз дистанційно
Якщо вузол не працює, це означає, що він не може спілкуватися з кластером. Можливо, ви все одно зможете підключитися до вузла. Можливо, ви все ще зможете увійти дистанційно або через послідовне з'єднання.
З іншого вузла кластера можна спробувати підключитися до вузла вниз через внутрішню мережу. Спробуйте пінгувати номер node-name-cluster? Використовуючи вузол 3 з наведеного вище виходу:
testcluster-1# ping testcluster-3 PING testcluster-3 (128.221.254.3): 56 data bytes 64 bytes from 128.221.254.3: icmp_seq=0 ttl=64 time=0.048 ms 64 bytes from 128.221.254.3: icmp_seq=1 ttl=64 time=0.042 ms 64 bytes from 128.221.254.3: icmp_seq=2 ttl=64 time=0.043 ms ^C --- testcluster-3 ping statistics --- 3 packets transmitted, 3 packets received, 0.0% packet loss
У цьому прикладі ми могли б пінгувати номер кластерного вузла, навіть якщо вузол показує як вимкнений. Ми б спробували підключитися до вузла через ssh і подивитися, чи зможемо підключитися.
Якщо вузол має статично призначену IP-адресу у вашій публічній мережі, можливо, ви зможете підключитися до неї. Визначте, чи є у вас статично призначена адреса від кластера, скористайтеся командою ISI network:
testcluster-1# isi network interfaces list | grep Static 1 25gige-1 Up - groupnet0.subnet0.pool0 Static 192.168.1.148 2 25gige-1 Up - groupnet0.subnet0.pool0 Static 192.168.1.149 3 25gige-1 Unknown - groupnet0.subnet0.pool0 Static 192.168.1.150
У цьому прикладі вузол 3 у кластері має статично призначену адресу 192.168.1.150. З іншого вузла кластера або робочої станції, яка має доступ до цієї мережі, ми намагалися пінгувати адресу. Якщо ми успішно зможемо пінгувати адресу, ми спробуємо підключитися до вузла ssh.
Встановлення локального зв'язку з вузлом внизу
Якщо хтось присутній на місці і:
- У них є комп'ютер із послідовним портом або USB-послідовним адаптером
- Кабель null модему або послідовний кабель з null modem adapter.