Co zrobić, gdy węzeł jest zgłaszany jako wyłączony lub offline
Summary: Jak sprawdzić, czy węzeł nie działa i jak nawiązać z nim połączenie.
Instructions
Za każdym razem, gdy węzeł ma problem z komunikacją z innymi węzłami w klastrze, jest zgłaszany jako offline. Istnieje wiele powodów, dla których węzeł lub węzły mogą być zgłaszane w tym stanie, począwszy od sprzętu, aż po system operacyjny. Najczęstszym wskaźnikiem awarii węzła są komunikaty o zdarzeniach. Jeśli węzeł utraci łączność z pozostałymi węzłami w klastrze, zgłaszane jest zdarzenie "węzeł w trybie offline":
2.21767 02/27 05:14 C 3 173520 Node 3 is offline
Jeśli wystąpi zdarzenie podobne do tego, sprawdź, czy węzeł został odzyskany, czy nadal jest w trybie offline. Aby to ustalić, użyj danych wyjściowych z isi status.
Jeśli dane wyjściowe stanu isi zgłaszają wszystkie węzły jako OK:
testcluster-1# isi status Cluster Name: testcluster Cluster Health: [ OK ] Data Reduction: 1.33 : 1 Storage Efficiency: 0.72 : 1 Cluster Storage: HDD SSD Storage Size: 0 (0 Raw) 16.7T (20.3T Raw) VHS Size: 3.6T Used: 0 (n/a) 22.0G (< 1%) Avail: 0 (n/a) 16.7T (> 99%) Health Ext Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size ---+----------------+-----+---+-----+-----+-----+-----------------+----------------- 1|xxx.xxx.xxx.148 | OK | C | 0| 524k| 524k|(No Storage HDDs)| 6.4G/ 5.6T(< 1%) 2|xxx.xxx.xxx.149 | OK | C |962.0|23.1M|23.1M|(No Storage HDDs)| 6.4G/ 5.6T(< 1%) 3|xxx.xxx.xxx.150 | OK | C | 0| 0| 0|(No Storage HDDs)| 9.2G/ 5.6T(< 1%) ---+----------------+-----+---+-----+-----+-----+-----------------+----------------- Cluster Totals: |962.0|23.7M|23.7M|(No Storage HDDs)|22.0G/16.7T(< 1%) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only External Network Fields: C = Connected, N = Not Connected Critical Events: Time LNN Event --------------- ---- ------------------------------------------------------- Cluster Job Status: No running jobs. No paused or waiting jobs. No failed jobs. Recent job results: Time Job Event --------------- -------------------------- ------------------------------ 02/27 04:00:38 ShadowStoreProtect[518] Succeeded 02/27 02:00:14 WormQueue[517] Succeeded
W tym przykładzie wszystkie węzły zgłaszają wartość OK. Oznacza to, że wszystkie węzły są w trybie online i należą do klastra. Sprawdź, czy ktoś ponownie uruchomił węzeł lub czy była wykonywana konserwacja. Jeśli nie masz pewności co do przyczyny ponownego uruchomienia, zbierz dzienniki i otwórz zgłoszenie serwisowe.
Jeśli isi status zgłasza węzeł w stanie Uwaga:
testcluster-1# isi status
Cluster Name: testcluster
Cluster Health: [ ATTN]
Data Reduction: 1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage: HDD SSD Storage
Size: 0 (0 Raw) 15.0T (18.6T Raw)
VHS Size: 3.6T
Used: 0 (n/a) 21.2G (< 1%)
Avail: 0 (n/a) 15.0T (> 99%)
Health Ext Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
1|xxx.xxx.xxx.148 | OK | C | 2.1k|16.9k|19.0k|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
2|xxx.xxx.xxx.149 | OK | C | 1.8M|10.0M|11.9M|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
3|xxx.xxx.xxx.150 |-A-- | C | 4.0k|480.0| 4.5k|(No Storage HDDs)|10.7G/ 5.5T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals: | 1.8M|10.0M|11.9M|(No Storage HDDs)|21.2G/15.0T(< 1%)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
External Network Fields: C = Connected, N = Not Connected
Critical Events:
Time LNN Event
--------------- ---- -------------------------------------------------------
Cluster Job Status:
Running jobs:
Job Impact Pri Policy Phase Run Time
-------------------------- ------ --- ---------- ----- ----------
FlexProtectLin[520] Medium 1 MEDIUM 4/4 0:00:34
Job Description: Working on nodes: None and drives: node3:bay1
No paused or waiting jobs.
No failed jobs.
Recent job results:
Time Job Event
--------------- -------------------------- ------------------------------
02/27 04:00:38 ShadowStoreProtect[518] Succeeded
02/27 02:00:14 WormQueue[517] Succeeded
Dane wyjściowe stanu isi węzła pokazują go w Attention -A--, jest to wyzwalane przez zdarzenie krytyczne w klastrze. Węzeł w stanie Uwaga jest w trybie online i należy do klastra, ale zgłasza problem. Możesz użyć listy zdarzeń isi, aby zobaczyć, jakie zdarzenia krytyczne są zgłaszane dla węzła w Attention. W tym przypadku było to spowodowane zadaniem FlexProtectLin uruchomionym we wnęce dysku nr 1. Podobnie jak w przypadku stanu OK, warto ustalić, dlaczego węzeł został ponownie uruchomiony, jeśli to możliwe. Jeśli nie, zbierz dzienniki i otwórz zgłoszenie serwisowe.
Jeśli isi status zgłasza węzeł jako wyłączony:
testcluster-1# isi status
Cluster Name: testcluster
Cluster Health: [ ATTN]
Data Reduction: 1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage: HDD SSD Storage
Size: 0 (0 Raw) 9.9T (13.5T Raw)
VHS Size: 3.6T
Used: 0 (n/a) 12.7G (< 1%)
Avail: 0 (n/a) 9.9T (> 99%)
Health Ext Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
1|xxx.xxx.xxx.148 | OK | C | 0|73.9k|73.9k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
2|xxx.xxx.xxx.149 | OK | C | 0|11.3k|11.3k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
3|xxx.xxx.xxx.150 |D--- | N | n/a| n/a| n/a| n/a/ n/a( n/a)| n/a/ n/a( n/a)
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals: | n/a| n/a| n/a|(No Storage HDDs)|12.7G/ 9.9T(< 1%)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
External Network Fields: C = Connected, N = Not Connected
Critical Events:
Time LNN Event
--------------- ---- -------------------------------------------------------
02/27 05:14:20 3 Node 3 offline
Cluster Job Status:
No running jobs.
No paused or waiting jobs.
No failed jobs.
Recent job results:
Time Job Event
--------------- -------------------------- ------------------------------
02/27 04:00:38 ShadowStoreProtect[518] Succeeded
02/27 02:00:14 WormQueue[517] Succeeded
02/27 00:00:21 ShadowStoreDelete[516] Succeeded
Dane wyjściowe stanu isi pokazują węzeł jako wyłączony D---, oznacza to, że węzeł nie może komunikować się z klastrem. Jeśli węzeł nie wyłącza się z znanego powodu (trwa konserwacja sprzętu, trwa aktualizacja systemu operacyjnego klastra itp.), sprawdź, czy możesz nawiązać połączenie z węzłem i natychmiast otworzyć zgłoszenie serwisowe.
Zdalne nawiązywanie łączności z wyłączonym węzłem
Jeśli węzeł nie działa, oznacza to, że nie może komunikować się z klastrem. Możliwe jest jednak, że nadal możesz połączyć się z węzłem. Nadal możesz zalogować się zdalnie lub za pośrednictwem połączenia szeregowego.
Z innego węzła w klastrze można spróbować połączyć się z węzłem działającym przy użyciu sieci wewnętrznej. Spróbuj wysłać polecenie ping na numer węzła clustername? Korzystanie z węzła 3 z powyższych danych wyjściowych:
testcluster-1# ping testcluster-3 PING testcluster-3 (128.221.254.3): 56 data bytes 64 bytes from 128.221.254.3: icmp_seq=0 ttl=64 time=0.048 ms 64 bytes from 128.221.254.3: icmp_seq=1 ttl=64 time=0.042 ms 64 bytes from 128.221.254.3: icmp_seq=2 ttl=64 time=0.043 ms ^C --- testcluster-3 ping statistics --- 3 packets transmitted, 3 packets received, 0.0% packet loss
W tym przykładzie udało nam się wykonać polecenie ping do numeru węzła nazwaklastra, mimo że węzeł jest zgłaszany jako wyłączony. Spróbujemy połączyć się z węzłem przez ssh i sprawdzić, czy możemy się połączyć.
Jeśli węzeł ma statycznie przypisany adres IP w sieci publicznej, możesz być w stanie się z nim połączyć. Aby określić, czy masz statycznie przypisany adres z klastra, użyj polecenia isi network:
testcluster-1# isi network interfaces list | grep Static 1 25gige-1 Up - groupnet0.subnet0.pool0 Static 192.168.1.148 2 25gige-1 Up - groupnet0.subnet0.pool0 Static 192.168.1.149 3 25gige-1 Unknown - groupnet0.subnet0.pool0 Static 192.168.1.150
W tym przykładzie węzeł 3 w klastrze ma statycznie przypisany adres 192.168.1.150. Z innego węzła w klastrze lub stacji roboczej, która ma dostęp do tej sieci, spróbujemy wysłać polecenie ping na adres. Jeśli uda nam się pomyślnie pingować adres, spróbujemy nawiązać połączenie z węzłem za pomocą ssh.
Lokalne nawiązywanie łączności z niedziałającym węzłem
Jeśli ktoś jest na miejscu i ma komputer z portem szeregowym lub adapterem USB na port szeregowy i modemu zerowego lub szeregowy z adapterem modemu zerowego. Mogą łączyć się bezpośrednio z węzłem w celu rozwiązywania problemów. Informacje na temat łączenia się z portem szeregowym w węźle można znaleźć w PowerScale: Procedura umożliwiająca klientom nawiązanie połączenia z portem szeregowym, gdy połączenie zdalne nie jest możliwe