PowerScale, Isilon, OneFS: Sådan slukker du en klynge korrekt
Sommaire: Bedste praksis for korrekt nedlukning af din PowerScale-klynge og omfatter oplysninger om de risici, der er forbundet med en forkert klyngenedlukning. Trinvise procedurer til korrekt nedlukning af klyngen. Nogle trin bør køres 4-8 uger før den planlagte opgradering. ...
Instructions
Indledning
Denne artikel beskriver proceduren for korrekt nedlukning af Dell Isilon-klyngen og indeholder oplysninger om de risici, der er forbundet med en forkert nedlukning af klyngen.
Noder, der lukkes forkert ned i klyngen, bør ikke være uden systemstrøm i længere tid end NVRAM-batteriets levetid.
Dette er cirka tre til fem dage, afhængigt af typen af knude.
Hvis data stadig gemmes i en nodejournal, mens noden er uden strøm i længere tid end NVRAM-batteriet, går dataene tabt.
Hvis dette sker på flere noder, vil det medføre, at klyngen skal genopbygges.
Kontakt Dell Isilons tekniske support for at få hjælp, hvis du har spørgsmål om procedurerne eller oplysningerne i denne artikel.
Procedure
Klyngens nedlukningsprocedure kræver rodlegitimationsoplysninger og seriel konsoladgang til noder i klyngen. Proceduren er opdelt i følgende faser.
- Fase 1: Udfør forebyggende vedligeholdelse
- Fase 2: Luk hver node i klyngen
- Fase 3: Kontrollér, at noderne er blevet lukket ned
- Fase 4: Frakobl strømkilden
- Fase 5: Tænd for hver node i klyngen
- Fase 6: Kør et tilstandstjek af klyngen
Læs hele proceduren, før du begynder nedlukningsprocessen. Dette sikrer, at du forstår konteksten og rækkefølgen for at fuldføre hvert trin.
Fase 1: Udfør forebyggende vedligeholdelse.
Disse trin udføres ca. 4-8 uger før den planlagte nedlukning. Formålet med denne fase er at identificere ukendte eller latente hardware- eller firmwareproblemer, som kan hæmme nedlukningsproceduren.
Hvis omstændighederne kræver øjeblikkelig nedlukning af hele klyngen, kan du lukke alle noder samtidigt ved hjælp af OneFS-kommandolinjegrænsefladen eller OneFS-webadministrationsgrænsefladen.
Dell anbefaler på det kraftigste, at du følger alle trin i fase 3 for at bevare dataintegriteten, hvis der er en nødnedlukningsprocedure.
- Upload logfiler til historisk reference, hvis det er nødvendigt.
# isi diagnostics gather start --gather-mode full
- Udfør eller anmod om et Isilon-helbredstjek.
- Dette evaluerer klyngens tilstand for at sikre, at den har en god understøttet driftsstatus.
- Det kan udføres af kunden ved hjælp af PowerScale: Sådan køres IOCA-klyngeanalyseværktøjet
- Det kan udføres af Remote Reactive (Customer Support) teamet. Dette er tilgængeligt for alle kunder med en aktiv vedligeholdelsesaftale for klynger på understøttede kodeversioner. Hvis du opfylder disse krav, skal du åbne en serviceanmodning (SR) på Dells online supportwebsted og anmode om et "Isilon-sundhedstjek". Og angiv komplette logfiler til tilstandstjekket ved at køre denne kommando
# isi diagnostics gather start --gather-mode full
*Tilstandstjekket er ikke beregnet til at løse klyngeproblemer eller vurdere klyngens konfiguration, ydeevne eller arbejdsgang.
- Udfør en "kold genstart" af hver node ved at udføre følgende trin. Der bør planlægges et vedligeholdelsesvindue for denne aktivitet.
Bemærk: Denne proces giver dig mulighed for at identificere eventuelle hukommelsesfejl eller drevfejltilstande, der kun registreres, når noden tændes igen.
- Luk hver node i klyngen én ad gangen. Sådan lukker du hver node:
- Åbn en SSH-forbindelse til en node. Luk hver node ved at køre følgende kommando
isi config shutdown <node_lnn>
- Kontrollér, at hver node er slukket, ved at bekræfte, at LED-indikatoren for den grønne strømindikator bag på noden ikke længere lyser.
- Tryk på tænd/sluk-knappen for at tænde noden igen.
- Kontrollér, at noden er tilsluttet klyngen igen og er sund ved at køre
isi status -qkommando og leder efter OK i kolonnen Health DASR i outputtet. - Hvis der opstår problemer med en node, der er angivet i kolonnen Tilstands-DASR, eller hvis forbindelsen ikke tilsluttes klyngen igen, skal du løse disse problemer, før den næste node lukkes.
Der er valgt et eksempel på et problem. Node 1 har sluttet sig til klyngen igen, men kolonnen Tilstand DASR angiver, at den kræver opmærksomhed.
mycluster-1# isi status -q Cluster Name: mycluster Cluster Health: [ ATTN] Cluster Storage: HDD SSD Size: 11G (23G Raw) 0 (0 Raw) VHS Size: 11G Used: 7.9G (69%) 0 (n/a) Avail: 3.5G (31%) 0 (n/a) Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.1.16.141 |-A-- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs) 2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs) 3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs) 4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs) -------------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Dobbelttjek tilstanden for hele din klynge, når du har genstartet hver node. Åbn en SSH-forbindelse til en vilkårlig node, og kør nedenstående kommando:
isi status -q
isi config reboot <node_lnn>
Dell anbefaler dog på det kraftigste, at man bruger koldgenstart for mere effektivt at identificere latente hardwareproblemer.
Fase 2: Luk hver node i klyngen.
Disse trin skal udføres den dag, du lukker Isilon-klyngen ned. Under en nedlukning for hele klyngen kan nogle faktorer påvirke eller forsinke nedlukningsprocessen. Udestående dataskrivninger til en node kan f.eks. påvirke nedlukningen. Formålet med trin 1-2 er at sikre, at alle klienter frakobles klyngen, og at data gemmes korrekt fra nodejournalerne i filsystemet, før nedlukningskommandoen køres. Hvis du har iSCSI-klienter, skal du sørge for at lukke klienter, før iSCSI-tjenesten deaktiveres.
Trin 3 beskriver, hvordan du lukker hver node i din klynge sekventielt ved hjælp af en seriel konsol. Denne metode anbefales, fordi den giver dig mulighed for at kontrollere, at hver node er lukket korrekt ned, før du går videre til næste node, og foretage justeringer eller løse problemer efter behov for at sikre en korrekt klyngenedlukning. Denne metode kan dog være tidskrævende, fordi den kræver, at der sluttes en seriel konsol til hver node for at køre nedlukningskommandoen. Afsnittet Luk alle noder i klyngen samtidigt beskriver, hvordan du bruger OneFS-kommandolinjegrænsefladen eller OneFS-webadministrationsgrænsefladen til at lukke klyngen. Denne metode er mindre tidskrævende end trin 3, men gør det mere udfordrende at identificere noder, der støder på problemer under nedlukningsprocessen.
- Isilon anbefaler, at klyngen isoleres fra klienter for at sikre, at skrivetunge klienter ikke hindrer nedlukningsproceduren. Du kan gøre dette ved at deaktivere de klienttjenester, der kører på din klynge. Udfør følgende procedure for at deaktivere klientorienterede tjenester:
- Identificer de klientorienterede tjenester eller protokoller, der kører på din klynge, ved at køre følgende kommandoer for hver klientorienteret tjeneste:
isi services apache2 isi services isi_hdfs_d isi services isi_iscsi_d isi services ndmpd isi services nfs isi services smb isi services vsftpd
- B. Dokumentér de tjenester, der er "aktiveret" på din klynge, baseret på outputtet for hver kommando. SMB-tjenesten, der er valgt i eksemplet nedenfor, er aktiveret, mens NFS-tjenesten er deaktiveret:
mycluster-4# isi services smb Service 'smb' is enabled. mycluster-4# isi services nfs Service 'nfs' is disabled. mycluster-4#
- Deaktiver klientorienterede tjenester. Efter dette trin mister alle klienter straks forbindelsen til klyngen. Hvis du vil deaktivere en tjeneste, skal du køre følgende kommando, som er relateret til den tjeneste, du har aktiveret.
isi services apache2 disable isi services isi_hdfs_d disable isi services isi_iscsi_d disable isi services ndmpd disable isi services nfs disable isi services smb disable isi services vsftpd disable
Hvis du har iSCSI-klienter, skal du sørge for, at iSCSI-klienter har frakoblet deres LUN'er, før du udfører trin 2. Kør isi iscsi list kommando til at bekræfte, at alle iSCSI-klienter er frakoblet klyngen.
Bemærk: Hvis du deaktiverer iSCSI-tjenesten, skal du sørge for, at du har lukket iSCSI-klienter, før du kører
isi_iscsi_d disable kommando. Afbrydelse af en tilsluttet iSCSI LUN kan medføre skade på klienten, hvilket typisk kræver genoprettelse fra sikkerhedskopiering.
- Flyt dataskrivninger, der er gemt i nodejournaler, til filsystemet ved at køre
isi_for_array isi_flushkommando. Output, der ligner følgende, vises på hver node:
Bemærk: at når du kører isi_flush, stopper det IKKE, før skylningen er afsluttet på en node, eller noden er slukket eller panik. Du kan ikke ctrl+c ud af flushen, hvis der skulle være problemer.
mycluster-4# isi_for_array isi_flush mycluster-1: Flushing cache... mycluster-1: Cache flushing complete.
mycluster-4# isi_for_array isi_flush mycluster-1: Flushing cache... vinvalbuf: flush failed, 1 clean and 0 dirty bufs remaining mycluster-2: Flushing cache... fsync: giving up on dirty
Kør isi_for_array isi_flush kommando igen. Hvis en node ikke skyller, skal du kontakte Dell Isilons tekniske support. Alle noder skal skylles med succes, før du fortsætter til næste trin.
- Luk hver node i klyngen sekventielt, og overvåg outputtet. Denne fremgangsmåde anbefales, fordi den giver dig mulighed for at identificere og løse eventuelle problemer, før du lukker den næste node i klyngen. Luk hver node ved at udføre følgende trin:
Advarsel: Kør IKKE
isi_for_array shutdown -p kommando til at lukke klyngen ned.
- Tilslut en seriel konsol til hver node.
- Kør følgende kommando:
isi config shutdown
Powering the system off using ACPI
- C. Hold øje med konsollen, og se efter hardwarerelaterede fejlhændelser. Vellykkede nodekladdelagringer er valgt i følgende outputvariationer:
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Attempting to save journal to default location 2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Saving journal to /var/journal/journal.gz 2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: All data saved successfully 2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: Attempting to save journal to default location 2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: A valid backup journal already exists. Not saving. An example of a node journal save failure is highlighted in the output below: 2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: ERROR: Validation failed for backup journal. Shutdown aborted 2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: Failed command output:
Hvis du modtager en fejl om, at nodekladden ikke blev gemt, kan du gemme kladden manuelt ved at udføre trinnene i fase 3.
Luk alle noder i klyngen samtidig.
Hvis der opstår en nødsituation, kan du lukke alle noder i klyngen samtidig. Denne metode anbefales dog ikke, fordi den ikke giver dig mulighed for at overvåge status og output for hver node, hvis der opstår et problem. Hvis du vælger at følge disse trin, anbefaler Dell på det kraftigste, at du følger alle trinnene i fase 3 for at kontrollere, at alle noder er lukket korrekt, når du har udført nedenstående procedurer.
Advarsel: Hvis du fjerner en strømkilde fra en node, der ikke har skyllet data fra journalen til filsystemet, øges risikoen for datatab betydeligt. Kontakt Dell Isilons tekniske support, hvis du har brug for hjælp til nedlukningsproceduren.
# isi config shutdown all
isi_for_array shutdown -p kommando til at lukke klyngen fra OneFS-webadministrationsgrænsefladen i OneFS 8.0 og nyere.
Fase 3: Kontrollér, at noderne er blevet lukket ned.
Bekræft, at noderne er lukket korrekt ned ved at se på strømindikatorens lysemitterende diode (LED) bag på noden. Alle strømindikatorens LED-indikatorer skal være mørke eller SLUKKET. Dette angiver, at noden er lukket ned.
Hvis strømindikatorlampen bag på noden stadig lyser, er noden ikke lukket ned. Hvis noden ikke er lukket ned, eller hvis du modtager konsoloutput, der angiver, at nodejournalen ikke blev gemt korrekt (fra fase 2, trin 3C), skal du gemme journalen manuelt for at sikre, at disse data er bundet til disken, før du lukker noden ned.
- Hvis du vil gemme kladden manuelt og lukke noden, skal du udføre følgende trin:
- Hvis noden reagerer på kommandolinjegrænsefladen, skal du genstarte noden ved at køre følgende kommando:
# isi config reboot
- Hvis noden ikke reagerer på kommandolinjegrænsefladen, skal du genstarte noden manuelt ved at trykke på tænd/sluk-knappen bag på noden og holde den nede. Dette får noden til at slukke. Vent 30 sek., og tryk derefter én gang på tænd/sluk-knappen for at starte nodesikkerhedskopien igen. Gå til næste trin.
- Når du har genstartet noden, skal du logge på igen og bruge følgende trin til at gemme journalen:
- Forsøg at lukke noden kontrolleret ned igen ved at køre følgende kommando:
# isi config shutdown
- Hvis outputtet stadig angiver, at kladden ikke blev gemt, skal du gemme kladden manuelt ved at køre følgende kommando:
# isi_save_journal
- Hvis kladden stadig ikke gemmes, skal du afmontere filsystemet, /ifs og derefter gennemtvinge at gemme kladden ved at køre følgende kommandoer:
# isi_kill_busy && umount /ifs
- Kontroller, at kladden gemmes ved at køre kommandoen isi_checkjournal.
# isi_checkjournal
- Gå ikke til næste trin, før output angiver, at kladden er gemt korrekt.
Kontakt Dells tekniske support , hvis det er nødvendigt.
Fase 4: Frakobl strømkilden.
Når klyngen er blevet lukket ned, og noderne er slukket, kan strømkilden frakobles fra klyngen.
NVRAM-batterier
Når en klient skriver en fil til en node, gemmes skrivningerne først i ikke-flygtig RAM (NVRAM), der hostes på nodens journalkort. Nogen tid senere forpligter OneFS disse skrivninger til disken. For at beskytte de data, der er gemt i NVRAM i tilfælde af en ikke-planlagt strømafbrydelse, er hver node udstyret med NVRAM-batterier (to til redundans). En node, der er slukket, men forbliver tilsluttet en strømkilde, fortsætter med at opdatere sine NVRAM-batterier. Når strømkilden kobles fra noden, begynder NVRAM-batterierne at tømmes. Batterilevetiden i den aktuelle generation af noder (X200, S200, X400 og NL400) er cirka fem dage. I den forrige generation af noder er NVRAM-batteriets levetid ca. tre dage.
Dell Technologies anbefaler, at noder lukkes korrekt for at undgå at være afhængige af NVRAM-batterier i længere tid under en strømafbrydelse.
Hvis NVRAM-batterierne på en node aflades helt, starter noden i skrivebeskyttet tilstand og forbliver i skrivebeskyttet tilstand i ca. 30 minutter, indtil NVRAM-batterierne er helt opladet. Når batterierne genoplades, vender noden automatisk tilbage til normal læse-/skrivetilstand.
Fase 5: Tænd for hver node i klyngen.
Disse trin skal udføres, når du er klar til at genstarte din Isilon-klynge.
- Gendan strømkilden til hver node.
- Tryk på tænd/sluk-knappen på frontpanelet eller bagsiden af hver node for at starte dem.
- Når alle noder er tændt, skal du køre
isi status -qkommando til at gennemgå klyngens tilstand. Kontroller, at alle noder er OK i kolonnen Health DASR og ikke er i skrivebeskyttet tilstand (R), før du fortsætter. For en sund klynge skal output svarende til følgende vises:
Cluster Name: mycluster Cluster Health: [ OK ] Cluster Storage: HDD SSD Size: 11G (23G Raw) 0 (0 Raw) VHS Size: 11G Used: 7.9G (69%) 0 (n/a) Avail: 3.5G (31%) 0 (n/a) Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.1.16.141 |-OK- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs) 2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs) 3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs) 4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs) -------------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Se listen over aktiverede tjenester, der blev oprettet i fase 2, trin 1b, og aktivér de tjenester, der blev deaktiveret ved at køre en eller flere af følgende kommandoer:
isi services apache2 enable isi services isi_hdfs_d enable isi services isi_iscsi_d enable isi services ndmpd enable isi services nfs enable isi services smb enable isi services vsftpd enable
- Kontroller, at dine klienter kan oprette forbindelse til klyngen og udføre deres sædvanlige arbejdsgange. Din klynge skal fungere normalt.
- Upload en fuld log indsamling:
# isi_gather_info --esrs
- Udfør eller anmod om et Isilon-sundhedstjek af Remote Reactive-teamet (kundesupport).
Trin til at køre helbredstjek.
PowerScale: Sådan køres analyseværktøjet til IOCA-klyngen.
- Anmod om et helbredstjek ved hjælp af Remote Reactive Support-teamet
Dette er tilgængeligt for alle kunder med en aktiv vedligeholdelsesaftale for klynger på understøttede kodeversioner.
Hvis du opfylder disse krav, skal du åbne en serviceanmodning (SR) på Dells online supportwebsted og anmode om et "Isilon-sundhedstjek".
*Tilstandstjekket er ikke beregnet til at løse klyngeproblemer eller vurdere klyngens konfiguration, ydeevne eller arbejdsgang.