PowerScale, Isilon, OneFS: Prawidłowe wyłączanie klastra
Resumo: Najlepsze praktyki dotyczące prawidłowego zamykania klastra PowerScale oraz informacje o ryzyku związanym z nieprawidłowym zamknięciem klastra. Szczegółowe procedury prawidłowego zamykania klastra. Niektóre kroki należy wykonać na 4–8 tygodni przed planowanym uaktualnieniem. ...
Instruções
Wprowadzenie
Ten artykuł zawiera procedurę prawidłowego wyłączania klastra Dell Isilon i informacje o ryzyku związanym z nieprawidłowym zamknięciem klastra.
Węzły, które są nieprawidłowo wyłączone w klastrze, nie powinny pozostawać bez zasilania systemu dłużej niż wynosi żywotność baterii NVRAM.
Jest to około trzech do pięciu dni, w zależności od typu węzła.
Jeśli dane są nadal przechowywane w dzienniku węzła, a węzeł jest pozbawiony zasilania przez okres dłuższy niż wynosi bateria NVRAM, dane zostaną utracone.
Jeśli zdarzy się to na wielu węzłach, doprowadzi to do konieczności odbudowania klastra.
W razie pytań dotyczących procedur lub informacji zawartych w tym artykule skontaktuj się z pomocą techniczną Dell Isilon, aby uzyskać pomoc.
Procedura
Procedura zamykania klastra wymaga poświadczeń użytkownika root i dostępu konsoli szeregowej do węzłów w klastrze. Procedura podzielona jest na następujące fazy.
- Faza 1: Przeprowadzenie konserwacji zapobiegawczej
- Faza 2: Wyłączenie każdego węzła w klastrze
- Faza 3: Sprawdzenie, czy węzły zostały pomyślnie zamknięte
- Faza 4: Odłączenie źródła mocy
- Faza 5: Włączenie każdego węzła w klastrze
- Faza 6: Uruchomienie kontroli poprawności działania klastra
Przeczytaj całą procedurę przed rozpoczęciem procesu wyłączania. Dzięki temu zrozumiesz kontekst i kolejność wykonywania każdego kroku.
Faza 1: Przeprowadzenie konserwacji zapobiegawczej.
Czynności te należy wykonać na około 4–8 tygodni przed planowanym zamknięciem. Celem tej fazy jest zidentyfikowanie nieznanych lub ukrytych problemów ze sprzętem lub oprogramowaniem wewnętrznym, które mogą utrudnić procedurę wyłączania.
Jeśli okoliczności wymagają natychmiastowego zamknięcia klastra, można wyłączyć wszystkie węzły jednocześnie za pomocą interfejsu wiersza polecenia OneFS lub sieciowego interfejsu administracyjnego OneFS.
Firma Dell zdecydowanie zaleca wykonanie wszystkich kroków Fazy 3 w celu zachowania integralności danych w przypadku procedury awaryjnego wyłączania.
- W razie potrzeby prześlij dzienniki, aby dostarczyć informacji historycznych.
# isi diagnostics gather start --gather-mode full
- Wykonaj kontrolę poprawności działania Isilon lub poproś o nią.
- Ocenia ona kondycję klastra, aby upewnić się, że jest on w dobrym stanie operacyjnym.
- Może ją wykonać klient za pomocą PowerScale: Jak uruchomić narzędzie do analizy klastrów IOCA
- Może ją wykonać zespół zdalnej obsługi reaktywnej (dział obsługi klienta). Ta opcja jest dostępna dla wszystkich klientów z aktywną umową na konserwację klastrów z obsługiwanymi wersjami kodu. Jeśli wymagania te są spełnione, należy otworzyć zgłoszenie serwisowe (SR) w witrynie pomocy technicznej online firmy Dell z prośbą o przeprowadzenie kontroli poprawności działania systemu Isilon. Podaj pełne dzienniki kontroli poprawności działania, uruchamiając następujące polecenie
# isi diagnostics gather start --gather-mode full
* Kontrola poprawności działania nie ma na celu rozwiązywania problemów z klastrem ani oceny konfiguracji, wydajności lub przepływu pracy klastra.
- Wykonaj „zimny ponowny rozruch” każdego węzła, wykonując poniższe czynności. Dla tego działania należy zaplanować przerwę konserwacyjną.
Uwaga: proces ten umożliwia zidentyfikowanie błędów pamięci lub trybów awarii dysku, które są wykrywane tylko po ponownym włączeniu węzła.
- Wyłącz każdy węzeł w klastrze po kolei. Aby wyłączyć każdy węzeł:
- Otwórz połączenie SSH z dowolnym węzłem. Zamknij każdy węzeł, uruchamiając następujące polecenie
isi config shutdown <node_lnn>
- Sprawdź, czy każdy węzeł został wyłączony, sprawdzając, czy zielona dioda LED wskaźnika zasilania z tyłu węzła już się nie świeci.
- Naciśnij przycisk zasilania, aby ponownie włączyć węzeł.
- Sprawdź, czy węzeł został ponownie przyłączony do klastra i czy jest sprawny, uruchamiając polecenie
isi status -qi wyszukując komunikat OK w kolumnie Health DASR danych wyjściowych. - Jeśli węzeł napotka problemy wskazane w kolumnie Health DASR lub nie zdoła ponownie dołączyć do klastra, rozwiąż te problemy przed zamknięciem następnego węzła.
Wybrano przykładowy problem. Węzeł 1 pomyślnie ponownie dołączył do klastra, ale kolumna Health DASR wskazuje, że wymaga on uwagi.
mycluster-1# isi status -q Cluster Name: mycluster Cluster Health: [ ATTN] Cluster Storage: HDD SSD Size: 11G (23G Raw) 0 (0 Raw) VHS Size: 11G Used: 7.9G (69%) 0 (n/a) Avail: 3.5G (31%) 0 (n/a) Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.1.16.141 |-A-- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs) 2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs) 3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs) 4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs) -------------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Po ponownym uruchomieniu każdego węzła należy dokładnie sprawdzić kondycję całego klastra. Otwórz połączenie SSH z dowolnym węzłem i uruchom poniższe polecenie:
isi status -q
isi config reboot <node_lnn>
Jednak firma Dell zdecydowanie zaleca stosowanie metody zimnego ponownego rozruchu w celu skuteczniejszego identyfikowania ukrytych problemów ze sprzętem.
Faza 2: Wyłączenie każdego węzła w klastrze.
Czynności te należy wykonać w dniu wyłączenia klastra Isilon. Podczas zamykania całego klastra niektóre czynniki mogą wpłynąć na proces zamykania lub go opóźnić. Na przykład zaległe zapisy danych w węźle mogą mieć wpływ na zamknięcie. Celem kroków 1–2 jest upewnienie się, że wszyscy klienci są odłączeni od klastra, a dane są prawidłowo zapisywane z dzienników węzłów w systemie plików przed uruchomieniem polecenia zamknięcia. Jeśli masz klienty iSCSI, upewnij się, że zostały zamknięte przed wyłączeniem usługi iSCSI.
W kroku 3 opisano sposób sekwencyjnego wyłączania każdego węzła w klastrze przy użyciu konsoli szeregowej. Ta metoda jest zalecana, ponieważ umożliwia sprawdzenie, czy każdy węzeł został prawidłowo zamknięty przed przejściem do następnego węzła oraz wprowadzenie wymaganych korekt lub naprawienie problemów w celu zapewnienia prawidłowego zamknięcia klastra. Jednak ta metoda może być czasochłonna, ponieważ wymaga podłączenia konsoli szeregowej do każdego węzła w celu uruchomienia polecenia zamknięcia. W sekcji Zamknij wszystkie węzły w klastrze jednocześnie opisano sposób korzystania z interfejsu wiersza poleceń OneFS lub sieciowego interfejsu administracyjnego OneFS w celu zamknięcia klastra. Ta metoda jest mniej czasochłonna niż krok 3, ale utrudnia identyfikację węzłów, które napotykają problemy podczas procesu zamykania.
- Isilon zaleca odizolowanie klastra od klientów, aby upewnić się, że klienty o dużym obciążeniu zapisem nie utrudniają procedury zamykania. Można to zrobić, wyłączając usługi skierowane do klienta uruchomione w klastrze. Wykonaj poniższą procedurę, aby wyłączyć usługi skierowane do klienta:
- Zidentyfikuj usługi lub protokoły skierowane do klienta, które są uruchomione w klastrze, uruchamiając następujące polecenia dla każdej usługi skierowanej do klienta:
isi services apache2 isi services isi_hdfs_d isi services isi_iscsi_d isi services ndmpd isi services nfs isi services smb isi services vsftpd
- B. Udokumentuj usługi, które są „włączone” w klastrze na podstawie danych wyjściowych dla każdego polecenia. W poniższym przykładzie usługa SMB jest włączona, a usługa NFS jest wyłączona:
mycluster-4# isi services smb Service 'smb' is enabled. mycluster-4# isi services nfs Service 'nfs' is disabled. mycluster-4#
- Wyłącz usługi skierowane do klienta. Po wykonaniu tego kroku wszystkie klienty natychmiast tracą połączenie z klastrem. Aby wyłączyć usługę, uruchom następujące polecenie związane z włączoną usługą.
isi services apache2 disable isi services isi_hdfs_d disable isi services isi_iscsi_d disable isi services ndmpd disable isi services nfs disable isi services smb disable isi services vsftpd disable
Jeśli masz klienty iSCSI, przed wykonaniem kroku 2 upewnij się, że klienty iSCSI odłączyły swoje jednostki LUN. Uruchom isi iscsi list , aby potwierdzić, że wszystkie klienty iSCSI są odłączone od klastra.
Uwaga: w przypadku wyłączania usługi iSCSI należy się upewnić, że klienty iSCSI zostały wyłączone przed uruchomieniem polecenia
isi_iscsi_d disable . Zakłócenie zamontowanej jednostki LUN iSCSI może spowodować uszkodzenie klienta, co zazwyczaj wymaga odzyskania danych z kopii zapasowej.
- Przenieś zapisy danych przechowywane w dziennikach węzłów do systemu plików, uruchamiając polecenie
isi_for_array isi_flush. Na każdym węźle zostaną wyświetlone dane wyjściowe podobne do następujących:
Uwaga: podczas uruchamiania isi_flush NIE zatrzyma się, dopóki opróżnianie węzła nie zostanie zakończone lub węzeł zostanie wyłączony lub spanikowany. Nie możesz ctrl+c wyjść z opróżniania, jeśli wystąpią problemy.
mycluster-4# isi_for_array isi_flush mycluster-1: Flushing cache... mycluster-1: Cache flushing complete.
mycluster-4# isi_for_array isi_flush mycluster-1: Flushing cache... vinvalbuf: flush failed, 1 clean and 0 dirty bufs remaining mycluster-2: Flushing cache... fsync: giving up on dirty
Uruchom isi_for_array isi_flush ponownie. Jeśli opróżnienie któregokolwiek z węzłów nie powiedzie się, skontaktuj się z działem pomocy technicznej Dell Isilon. Przed przejściem do następnego kroku należy pomyślnie opróżnić wszystkie węzły.
- Wyłącz kolejno każdy węzeł w klastrze i monitoruj dane wyjściowe. Takie podejście jest zalecane, ponieważ umożliwia zidentyfikowanie i rozwiązanie wszelkich problemów przed zamknięciem następnego węzła w klastrze. Wyłącz każdy węzeł, wykonując następujące czynności:
Przestroga: NIE uruchamiaj polecenia
isi_for_array shutdown -p , aby wyłączyć klaster.
- Podłącz konsolę szeregową do każdego węzła.
- Uruchom następujące polecenie:
isi config shutdown
Powering the system off using ACPI
- C. Obserwuj konsolę i poszukaj zdarzeń awarii związanych ze sprzętem. Pomyślne zapisy dziennika węzłów są wybierane w następujących wariantach wyjściowych:
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Attempting to save journal to default location 2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Saving journal to /var/journal/journal.gz 2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: All data saved successfully 2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: Attempting to save journal to default location 2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: A valid backup journal already exists. Not saving. An example of a node journal save failure is highlighted in the output below: 2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: ERROR: Validation failed for backup journal. Shutdown aborted 2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: Failed command output:
Jeśli wystąpi błąd braku zapisu dziennika węzła, można ręcznie zapisać dziennik, wykonując kroki opisane w Fazie 3.
Wyłącz wszystkie węzły w klastrze jednocześnie.
W sytuacji awaryjnej można jednocześnie wyłączyć wszystkie węzły w klastrze. Jednak ta metoda nie jest zalecana, ponieważ nie umożliwia monitorowania stanu i danych wyjściowych każdego węzła w przypadku wystąpienia problemu. Jeśli zdecydujesz się wykonać te kroki, firma Dell zdecydowanie zaleca wykonanie wszystkich kroków Fazy 3 w celu sprawdzenia, czy wszystkie węzły zostały prawidłowo zamknięte po wykonaniu poniższych procedur.
Ostrzeżenie: jeśli usuniesz źródło zasilania z węzła, który nie opróżnił danych ze swojego dziennika do systemu plików, ryzyko utraty danych znacznie wzrośnie. Skontaktuj się z działem pomocy technicznej Dell Isilon, jeśli potrzebujesz pomocy przy procedurze wyłączania.
# isi config shutdown all
isi_for_array shutdown -p , aby zamknąć klaster z poziomu sieciowego interfejsu administracyjnego OneFS w OneFS 8.0 i nowszych wersjach.
Faza 3: Sprawdzenie, czy węzły zostały pomyślnie zamknięte.
Upewnij się, że węzły zostały prawidłowo wyłączone, patrząc na świecącą diodę (LED) wskaźnika zasilania z tyłu węzła. Wszystkie wskaźniki LED zasilania powinny być ciemne lub wyłączone. Oznacza to, że węzeł został pomyślnie zamknięty.
Jeśli kontrolka zasilania z tyłu węzła nadal świeci, oznacza to, że węzeł nie został wyłączony. Jeśli węzeł nie został wyłączony lub jeśli otrzymasz dane wyjściowe konsoli wskazujące, że dziennik węzła nie został prawidłowo zapisany (od Fazy 2, kroku 3C), musisz ręcznie zapisać dziennik, aby upewnić się, że dane są zatwierdzone na dysku przed zamknięciem węzła.
- Aby ręcznie zapisać dziennik i zamknąć węzeł, wykonaj następujące czynności:
- Jeśli węzeł reaguje na interfejs wiersza polecenia, uruchom ponownie węzeł, uruchamiając następujące polecenie:
# isi config reboot
- Jeśli węzeł nie reaguje na interfejs wiersza polecenia, ręcznie uruchom ponownie węzeł, naciskając i przytrzymując przycisk zasilania z tyłu węzła. Powoduje to wyłączenie węzła. Odczekaj 30 sekund, a następnie naciśnij raz przycisk zasilania, aby ponownie uruchomić kopię zapasową węzła. Przejdź do następnego kroku.
- Po ponownym uruchomieniu węzła zaloguj się ponownie i wykonaj następujące czynności, aby zapisać dziennik:
- Spróbuj ponownie bezpiecznie zamknąć węzeł, uruchamiając następujące polecenie:
# isi config shutdown
- Jeśli dane wyjściowe nadal wskazują, że dziennik nie został zapisany, zapisz dziennik ręcznie, uruchamiając następujące polecenie:
# isi_save_journal
- Jeśli dziennik nadal nie zostanie zapisywany, odłącz system plików, /ifs, a następnie wymuś zapisanie dziennika, uruchamiając następujące polecenia:
# isi_kill_busy && umount /ifs
- Sprawdź, czy dziennik został zapisany, uruchamiając polecenie isi_checkjournal.
# isi_checkjournal
- Nie przechodź do następnego kroku, dopóki dane wyjściowe nie wskażą, że dziennik został pomyślnie zapisany.
W razie potrzeby skontaktuj się z działem pomocy technicznej firmy Dell.
Faza 4: Odłączenie źródła mocy.
Dopiero po pomyślnym wyłączeniu klastra i wyłączeniu węzłów można odłączyć źródło mocy od klastra.
Baterie NVRAM
Gdy klient zapisuje plik w węźle, zapisy są najpierw przechowywane w nieulotnej pamięci RAM (NVRAM) na karcie dziennika węzła. Jakiś czas później OneFS zatwierdza te zapisy na dysku. Aby chronić dane przechowywane w pamięci NVRAM w przypadku nieplanowanej awarii zasilania, każdy węzeł jest wyposażony w baterie NVRAM (dwie zapewniają nadmiarowość). Węzeł, który jest wyłączony, ale pozostaje podłączony do źródła mocy, kontynuuje odświeżanie baterii NVRAM. Po odłączeniu źródła mocy od węzła baterie NVRAM zaczynają się rozładowywać. Czas eksploatacji baterii w obecnej generacji węzłów (X200, S200, X400 i NL400) wynosi około pięciu dni. W przypadku poprzedniej generacji węzłów czas pracy baterii NVRAM wynosi około trzech dni.
Firma Dell Technologies zaleca prawidłowe wyłączanie węzłów, aby uniknąć polegania na bateriach NVRAM przez dłuższy czas podczas awarii zasilania.
Jeśli baterie NVRAM w węźle całkowicie się rozładują, węzeł uruchamia się w trybie tylko-do-odczytu i pozostaje w nim przez około 30 minut do momentu pełnego naładowania baterii NVRAM. Po naładowaniu baterii węzeł automatycznie powraca do normalnego trybu odczytu/zapisu.
Faza 5: Włączenie każdego węzła w klastrze.
Czynności te należy wykonać, gdy wszystko będzie gotowe do ponownego uruchomienia klastra Isilon.
- Przywróć źródło mocy do każdego węzła.
- Naciśnij przycisk zasilania na panelu przednim lub z tyłu każdego węzła, aby je uruchomić.
- Po włączeniu wszystkich węzłów uruchom polecenie
isi status -q, aby sprawdzić kondycję klastra. Przed kontynuowaniem sprawdź, czy wszystkie węzły mają status OK w kolumnie Health DASR i czy nie są w trybie tylko-do-odczytu (R). W przypadku klastra w dobrej kondycji powinny pojawić się dane wyjściowe podobne do następujących:
Cluster Name: mycluster Cluster Health: [ OK ] Cluster Storage: HDD SSD Size: 11G (23G Raw) 0 (0 Raw) VHS Size: 11G Used: 7.9G (69%) 0 (n/a) Avail: 3.5G (31%) 0 (n/a) Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.1.16.141 |-OK- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs) 2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs) 3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs) 4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs) -------------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Zapoznaj się z listą włączonych usług utworzonych w kroku 1b Fazy 2 i włącz usługi, które zostały wyłączone, uruchamiając co najmniej jedno z następujących poleceń:
isi services apache2 enable isi services isi_hdfs_d enable isi services isi_iscsi_d enable isi services ndmpd enable isi services nfs enable isi services smb enable isi services vsftpd enable
- Sprawdź, czy klienci mogą łączyć się z klastrem i wykonywać swoje zwykłe przepływy pracy. Klaster powinien działać normalnie.
- Upload a full log zbierz:
# isi_gather_info --esrs
- Wykonaj kontrolę poprawności działania Isilon lub poproś o nią za pośrednictwem zespołu zdalnej obsługi reaktywnej (dział obsługi klienta).
Etapy uruchamiania kontroli poprawności działania.
PowerScale: jak uruchomić narzędzie do analizy klastrów IOCA.
- Poproś o kontrolę poprawności działania za pomocą zespołu zdalnej obsługi reaktywnej
Ta opcja jest dostępna dla wszystkich klientów z aktywną umową na konserwację klastrów z obsługiwanymi wersjami kodu.
Jeśli wymagania te są spełnione, należy otworzyć zgłoszenie serwisowe (SR) w witrynie pomocy technicznej online firmy Dell z prośbą o przeprowadzenie kontroli poprawności działania systemu Isilon.
* Kontrola poprawności działania nie ma na celu rozwiązywania problemów z klastrem ani oceny konfiguracji, wydajności lub przepływu pracy klastra.