PowerScale, Isilon, OneFS: Jak správně vypnout cluster
Sommaire: Doporučené postupy pro správné vypnutí clusteru PowerScale a informace o rizicích spojených s nesprávným vypnutím clusteru. Podrobné postupy pro správné vypnutí clusteru. Některé kroky je třeba provést 4–8 týdnů před plánovaným upgradem. ...
Instructions
Úvod
Tento článek obsahuje postup správného vypnutí clusteru Dell Isilon a informace o rizicích spojených s nesprávným vypnutím clusteru.
Uzly, které jsou v clusteru nesprávně vypnuty, by neměly být bez napájení systému déle, než je životnost baterie NVRAM.
To je přibližně tři až pět dní, v závislosti na typu uzlu.
Pokud jsou data stále uložena v deníku uzlu, zatímco uzel je bez napájení po dobu delší, než je životnost baterie paměti NVRAM, dojde ke ztrátě dat.
Pokud k tomu dojde na více uzlech, bude nutné cluster znovu sestavit.
Pokud máte dotazy k postupům nebo informacím v tomto článku, obraťte se na technickou podporu Isilon společnosti Dell a požádejte o pomoc.
Postup
Postup vypnutí clusteru vyžaduje přihlašovací údaje uživatele root a přístup k uzlům v clusteru ze sériové konzole. Postup je rozdělen do následujících fází.
- 1. fáze: Provedení preventivní údržby
- 2. fáze: Vypnutí všech uzlů v clusteru
- 3. fáze: Ověření úspěšného vypnutí clusterů
- 4. fáze: Odpojení napájecího kabelu
- 5. fáze: Zapnutí každého uzlu v clusteru
- 6. fáze: Spuštění kontroly stavu v clusteru
Před zahájením procesu vypnutí si přečtěte celý postup. Tím zajistíte, že porozumíte kontextu a pořadí dokončení jednotlivých kroků.
1. fáze: Provedení preventivní údržby
Tyto kroky se provádějí přibližně 4–8 týdnů před plánovanou odstávkou. Účelem této fáze je identifikovat neznámé nebo skryté problémy s hardwarem nebo firmwarem, které mohou bránit procesu vypnutí.
Pokud okolnosti vyžadují okamžité vypnutí celého clusteru, můžete vypnout všechny uzly současně pomocí rozhraní příkazového řádku OneFS nebo rozhraní webové správy OneFS.
Společnost Dell důrazně doporučuje provést všechny kroky ve fázi 3, aby byla zachována integrita dat v případě postupu nouzového vypnutí.
- V případě potřeby nahrajte protokoly pro historické reference.
# isi diagnostics gather start --gather-mode full
- Proveďte kontrolu stavu Isilon nebo o ni požádejte.
- Tím se vyhodnotí stav clusteru, aby se zajistilo, že je v dobrém provozním stavu.
- Zákazník to může provést pomocí softwaru PowerScale: Jak spustit nástroj IOCA Cluster Analysis Tool
- To může provést tým vzdálené proaktivní podpory (zákaznická podpora). To je k dispozici všem zákazníkům s aktivní smlouvou o údržbě clusterů s podporovanými verzemi kódu. Pokud tyto požadavky splňujete, otevřete na webu online podpory společnosti Dell žádost o kontrolu stavu Isilon. Spuštěním tohoto příkazu zadejte úplné protokoly pro kontrolu stavu
# isi diagnostics gather start --gather-mode full
*Kontrola stavu není určena k opravě problémů s clusterem ani k posouzení konfigurace, výkonu nebo pracovních procesů clusteru.
- Proveďte úplný restart každého uzlu pomocí následujících kroků. Pro tuto činnost byste měli naplánovat časové období údržby.
Poznámka: Tento proces umožňuje identifikovat jakékoli chyby paměti nebo režimy selhání disku, které jsou zjištěny pouze při opětovném zapnutí uzlu.
- Postupně vypínejte jednotlivé uzly v clusteru. Vypnutí jednotlivých uzlů:
- Navažte připojení SSH k libovolnému uzlu. Vypněte každý uzel spuštěním následujícího příkazu:
isi config shutdown <node_lnn>
- Ověřte, zda jsou všechny uzly vypnuté. Poznáte to tak, že zelená kontrolka LED napájení na zadní straně uzlu již nebude svítit.
- Stisknutím tlačítka napájení znovu zapněte uzel.
- Spuštěním následujícího příkazu ověřte, zda se uzel znovu připojil ke clusteru a je v pořádku:
isi status -q. Poté ve sloupci Health DASR výstupu vyhledejte zprávu OK. - Pokud u uzlu dojde k problémům uvedeným ve sloupci Health DASR nebo se nepodaří znovu připojit ke clusteru, vyřešte tyto problémy před vypnutím dalšího uzlu.
Je vybrán příklad problému. Uzel 1 se úspěšně znovu připojil ke clusteru, ale sloupec Health DASR značí, že vyžaduje vaši pozornost.
mycluster-1# isi status -q Cluster Name: mycluster Cluster Health: [ ATTN] Cluster Storage: HDD SSD Size: 11G (23G Raw) 0 (0 Raw) VHS Size: 11G Used: 7.9G (69%) 0 (n/a) Avail: 3.5G (31%) 0 (n/a) Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.1.16.141 |-A-- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs) 2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs) 3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs) 4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs) -------------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Po restartování každého uzlu znovu zkontrolujte stav celého clusteru. Navažte připojení SSH k libovolnému uzlu a spusťte následující příkaz:
isi status -q
isi config reboot <node_lnn>
Společnost Dell však důrazně doporučuje používat úplný restart, abyste mohli lépe identifikovat skryté problémy s hardwarem.
2. fáze: Vypnutí všech uzlů v clusteru
Tyto kroky je třeba provést v den, kdy vypnete cluster Isilon. Během vypnutí v rámci celého clusteru mohou některé faktory ovlivnit nebo zpozdit proces vypnutí. Vypnutí mohou ovlivnit například nedokončené zápisy dat do uzlu. Účelem kroků 1–2 je zajistit, aby se všichni klienti odpojili od clusteru a aby se data správně uložila z deníků uzlů do systému souborů před spuštěním příkazu pro vypnutí. Pokud máte klienty iSCSI, ujistěte se, že jste je vypnuli dříve, než bude služba iSCSI zakázána.
Krok 3 popisuje, jak postupně vypínat jednotlivé uzly v clusteru pomocí sériové konzole. Tato metoda se doporučuje, protože umožňuje ověřit, zda se každý uzel správně vypnul, než přejdete k dalšímu uzlu, a podle potřeby provést úpravy nebo opravit problémy, aby bylo zajištěno správné vypnutí clusteru. Tato metoda však může být časově náročná, protože ke spuštění příkazu pro vypnutí vyžaduje připojení sériové konzoly ke každému uzlu. Část Vypnout současně všechny uzly v clusteru popisuje, jak k vypnutí clusteru použít rozhraní příkazového řádku OneFS nebo webové rozhraní webové správy OneFS. Tato metoda je časově méně náročná než krok 3, ale ztěžuje identifikaci uzlů, u kterých dochází k problémům během procesu vypnutí.
- Společnost Isilon doporučuje izolovat cluster od klientů, aby klienti s velkou mírou zápisů nebránili procesu vypnutí. To lze provést zakázáním klientských služeb spuštěných ve vašem clusteru. Chcete-li zakázat klientské služby, proveďte následující postup:
- Identifikujte klientské služby nebo protokoly, které jsou spuštěny v clusteru, spuštěním následujících příkazů u každé takové služby:
isi services apache2 isi services isi_hdfs_d isi services isi_iscsi_d isi services ndmpd isi services nfs isi services smb isi services vsftpd
- B. Zdokumentujte služby, které jsou v clusteru povoleny, na základě výstupu jednotlivých příkazů. Služba SMB vybraná v níže uvedeném příkladu je povolena, zatímco služba NFS je zakázána:
mycluster-4# isi services smb Service 'smb' is enabled. mycluster-4# isi services nfs Service 'nfs' is disabled. mycluster-4#
- Zakažte klientské služby. Po tomto kroku všichni klienti okamžitě ztratí připojení ke clusteru. Chcete-li službu zakázat, spusťte následující příkaz související se službou, kterou jste povolili.
isi services apache2 disable isi services isi_hdfs_d disable isi services isi_iscsi_d disable isi services ndmpd disable isi services nfs disable isi services smb disable isi services vsftpd disable
Pokud máte klienty iSCSI, ujistěte se, že před provedením kroku 2 odpojili své jednotky LUN. Spusťte isi iscsi list a potvrďte, že se všichni klienti iSCSI odpojili od clusteru.
Poznámka: Pokud zakazujete službu iSCSI, ujistěte se, že jste před spuštěním příkazu následujícího příkazu vypnuli klienty iSCSI:
isi_iscsi_d disable . Narušení připojené jednotky iSCSI LUN může způsobit poškození klienta, což obvykle vyžaduje obnovení ze zálohy.
- Přesuňte zápisy dat uložené v denících uzlů do systému souborů spuštěním příkazu
isi_for_array isi_flush. Na každém uzlu se zobrazí výstup podobný následujícímu:
Všimněte si, že při spuštění isi_flush se NEZASTAVÍ, dokud není vyprázdnění uzlu dokončeno nebo dokud není uzel vypnutý nebo nepanikaří. V případě problémů nelze vyprázdnění pomocí kláves CTRL+C ukončit.
mycluster-4# isi_for_array isi_flush mycluster-1: Flushing cache... mycluster-1: Cache flushing complete.
mycluster-4# isi_for_array isi_flush mycluster-1: Flushing cache... vinvalbuf: flush failed, 1 clean and 0 dirty bufs remaining mycluster-2: Flushing cache... fsync: giving up on dirty
Spusťte isi_for_array isi_flush ještě jednou. Pokud se některý uzel nevyprázdní, obraťte se na technickou podporu Dell Isilon. Než budete pokračovat dalším krokem, musí se všechny uzly úspěšně vyprázdnit.
- Postupně vypněte každý uzel v clusteru a sledujte výstup. Tento přístup doporučujeme, protože umožňuje identifikovat a vyřešit všechny problémy před vypnutím dalšího uzlu v clusteru. Vypněte každý uzel provedením následujících kroků:
Upozornění: NESPOUŠTĚJTE příkaz
isi_for_array shutdown -p k vypnutí clusteru.
- Připojte sériovou konzoli ke každému uzlu.
- Zadejte následující příkaz:
isi config shutdown
Powering the system off using ACPI
- C. Sledujte konzoli a hledejte chybové události související s hardwarem. Úspěšná uložení deníku uzlů jsou vybrána v následujících variantách výstupu:
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Attempting to save journal to default location 2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Saving journal to /var/journal/journal.gz 2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: All data saved successfully 2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: Attempting to save journal to default location 2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: A valid backup journal already exists. Not saving. An example of a node journal save failure is highlighted in the output below: 2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: ERROR: Validation failed for backup journal. Shutdown aborted 2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: Failed command output:
Pokud se zobrazí chyba, že deník uzlů nebyl uložen, můžete jej uložit ručně provedením kroků ve fázi 3.
Vypnutí všech uzlů v clusteru současně.
V případě nouze můžete vypnout všechny uzly v clusteru současně. Tuto metodu však nedoporučujeme, protože neumožňuje monitorovat stav a výstup jednotlivých uzlů v případě, že dojde k problému. Pokud se rozhodnete postupovat podle těchto kroků, společnost Dell důrazně doporučuje provést všechny kroky ve fázi 3 a ověřit, zda se všechny uzly po provedení níže uvedených postupů správně vypnuly.
Varování: Pokud odpojíte zdroj napájení z uzlu, který nevyprázdnil data ze svého deníku do systému souborů, riziko ztráty dat se podstatně zvýší. Pokud potřebujete pomoc s vypnutím, obraťte se na technickou podporu Isilon společnosti Dell.
# isi config shutdown all
isi_for_array shutdown -p Příkaz k vypnutí clusteru z webového rozhraní pro správu OneFS v systému OneFS 8.0 a novějším.
3. fáze: Ověření úspěšného vypnutí clusterů.
Podívejte se na kontrolku LED napájení na zadní straně uzlu, která značí, jestli se uzly správně vypnuly. Všechny kontrolky LED napájení by měly ztmavnout nebo zhasnout. To znamená, že se uzel úspěšně vypnul.
Pokud kontrolka napájení na zadní straně uzlu stále svítí, uzel se nevypnul. Pokud se uzel nevypnul nebo pokud se zobrazí výstup konzoly oznamující, že se deník uzlů správně neuložil (z fáze 2, kroku 3C), je nutné deník uložit ručně, abyste zajistili, že data budou před vypnutím uzlu uložena na disk.
- Chcete-li deník uložit ručně a vypnout uzel, proveďte následující kroky:
- Pokud uzel reaguje na rozhraní příkazového řádku, restartujte uzel spuštěním následujícího příkazu:
# isi config reboot
- Pokud uzel nereaguje na rozhraní příkazového řádku, restartujte uzel ručně stisknutím a přidržením tlačítka napájení na zadní straně uzlu. Tak uzel vypnete. Počkejte 30 sekund a poté jedním stisknutím tlačítka napájení znovu spusťte zálohování uzlu. Přejděte k dalšímu kroku.
- Po restartování uzlu se znovu přihlaste a deník uložte pomocí následujících kroků:
- Pokuste se uzel znovu řádně vypnout spuštěním následujícího příkazu:
# isi config shutdown
- Pokud výstup stále naznačuje, že se deník neuložil, uložte jej ručně spuštěním následujícího příkazu:
# isi_save_journal
- Pokud se deník stále neukládá, odpojte systém souborů /ifs a pak vynuťte uložení deníku spuštěním následujících příkazů:
# isi_kill_busy && umount /ifs
- Ověřte, zda se deník uložil, spuštěním příkazu isi_checkjournal.
# isi_checkjournal
- Nepřecházejte k dalšímu kroku, dokud z výstupu není patrné, že byl deník úspěšně uložen.
Podle potřeby se obraťte na technickou podporu společnosti Dell.
4. fáze: Odpojení napájecího zdroje.
Teprve po úspěšném vypnutí clusteru a vypnutí uzlů lze od clusteru odpojit napájecí zdroj.
Baterie NVRAM
Když klient zapíše soubor do uzlu, zápisy se nejprve uloží do stálé paměti RAM (NVRAM) hostované na kartě deníku uzlu. O něco později systém OneFS uloží tyto zápisy na disk. Kvůli ochraně dat uložených v paměti NVRAM v případě neplánovaného výpadku napájení je každý uzel vybaven bateriemi NVRAM (dvěma pro redundanci). Uzel, který je vypnutý, ale zůstává připojený k napájecímu zdroji, pokračuje v obnově baterií NVRAM. Když je napájecí zdroj odpojen od uzlu, baterie NVRAM se začnou vybíjet. Životnost baterie v aktuální generaci uzlů (X200, S200, X400 a NL400) je přibližně 5 dní. U předchozí generace uzlů je výdrž baterie NVRAM přibližně 3 dny.
Společnost Dell Technologies doporučuje uzly řádně vypnout, aby se uzel při výpadku napájení nemusel po delší dobu spoléhat na baterie NVRAM.
Pokud se baterie NVRAM v uzlu zcela vybije, uzel se spustí do režimu pouze pro čtení a zůstane v něm přibližně 30 minut, dokud se baterie NVRAM plně nenabijí. Po nabití baterií se uzel automaticky vrátí do normálního režimu čtení/zápisu.
5. fáze: Zapnutí každého uzlu v clusteru.
Tyto kroky je třeba provést, až budete připraveni restartovat cluster Isilon.
- Obnovte napájecí zdroj pro každý uzel.
- Stisknutím tlačítka napájení na předním panelu nebo na zadní straně každého uzlu je spusťte.
- Po zapnutí všech uzlů spusťte příkaz
isi status -qke kontrole stavu clusteru. Než budete pokračovat, ověřte, že jsou všechny uzly ve sloupci Health DASR v pořádku a nejsou v režimu jen pro čtení (R). U clusteru, který je v pořádku, by se měl zobrazit výstup podobný následujícímu:
Cluster Name: mycluster Cluster Health: [ OK ] Cluster Storage: HDD SSD Size: 11G (23G Raw) 0 (0 Raw) VHS Size: 11G Used: 7.9G (69%) 0 (n/a) Avail: 3.5G (31%) 0 (n/a) Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.1.16.141 |-OK- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs) 2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs) 3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs) 4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs) -------------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Podívejte se na seznam povolených služeb, který byl vytvořen ve fázi 2, kroku 1b, a spuštěním jednoho nebo více z následujících příkazů povolte služby, které byly zakázány:
isi services apache2 enable isi services isi_hdfs_d enable isi services isi_iscsi_d enable isi services ndmpd enable isi services nfs enable isi services smb enable isi services vsftpd enable
- Ověřte, zda se klienti mohou připojit ke clusteru a provádět obvyklé pracovní postupy. Cluster by měl fungovat normálně.
- Upload a full log collecther:
# isi_gather_info --esrs
- Proveďte kontrolu stavu Isilon nebo o ni požádejte vzdálenou proaktivní podporu (zákaznická podpora).
Postup spuštění kontrol stavu.
PowerScale: Jak spustit nástroj IOCA Cluster Analysis Tool.
- Žádost o kontrolu stavu pomocí týmu vzdálené proaktivní podpory
To je k dispozici všem zákazníkům s aktivní smlouvou o údržbě clusterů s podporovanými verzemi kódu.
Pokud tyto požadavky splňujete, otevřete na webu online podpory společnosti Dell žádost o kontrolu stavu Isilon.
*Kontrola stavu není určena k opravě problémů s clusterem ani k posouzení konfigurace, výkonu nebo pracovních procesů clusteru.