PowerScale, Isilon, OneFS: Slik slår du av en klynge på riktig måte
Resumen: Anbefalte fremgangsmåter for å slå av PowerScale-klyngen på riktig måte, og inkluderer informasjon om risikoene forbundet med feil avslutning av klyngen. Trinnvise fremgangsmåter for å slå av klyngen på riktig måte. Noen trinn bør kjøres 4-8 uker før den planlagte oppgraderingen. ...
Instrucciones
Innledning
Denne artikkelen inneholder fremgangsmåten for å slå av Dell Isilon-klyngen på riktig måte, og inneholder informasjon om risikoene forbundet med feil avslutning av klyngen.
Noder som er feilaktig slått av i klyngen, bør ikke være uten systemstrøm lenger enn levetiden til NVRAM-batteriet.
Dette er omtrent tre til fem dager, avhengig av type node.
Hvis data fortsatt lagres i en nodejournal mens noden er uten strøm lenger enn NVRAM-batterilevetiden, går data tapt.
Hvis dette skjer på flere noder, vil det føre til at klyngen må gjenoppbygges.
Kontakt teknisk støtte hos Dell Isilon for hjelp hvis du har spørsmål om fremgangsmåtene eller informasjonen i denne artikkelen.
Fremgangsmåte
Prosedyren for avslutning av klynge krever rotlegitimasjon og seriell konsolltilgang til noder i klyngen. Prosedyren er delt inn i følgende faser.
- Fase 1: Utfør forebyggende vedlikehold
- Fase 2: Slå av hver node i klyngen
- Fase 3: Kontroller at nodene er slått av
- Fase 4: Koble fra strømkilden
- Fase 5: Slå på hver node i klyngen
- Fase 6: Kjøre en tilstandskontroll på klyngen
Les hele prosedyren før du begynner avslutningsprosessen. Dette sikrer at du forstår konteksten og rekkefølgen for å fullføre hvert trinn.
Fase 1: Utfør forebyggende vedlikehold.
Disse trinnene utføres omtrent 4-8 uker før den planlagte nedstengningen. Formålet med denne fasen er å identifisere ukjente eller latente maskinvare- eller fastvareproblemer som kan hindre avslutningsprosedyren.
Hvis situasjonen krever umiddelbar avslutning i hele klyngen, kan du slå av alle noder samtidig ved hjelp av OneFS-kommandolinjegrensesnittet eller OneFS-webadministrasjonsgrensesnittet.
Dell anbefaler på det sterkeste å følge alle trinnene i fase 3 for å bevare dataintegriteten hvis det finnes en prosedyre for nødavstengning.
- Last opp logger for historisk referanse om nødvendig.
# isi diagnostics gather start --gather-mode full
- Utfør eller be om en Isilon-helsesjekk.
- Dette evaluerer tilstanden til klyngen for å sikre at den har en god driftsstatus som kan støttes.
- Dette kan utføres av kunden ved hjelp av PowerScale: Slik kjører du IOCA Cluster Analysis Tool
- Det kan utføres av Remote Reactive (Customer Support) team. Dette er tilgjengelig for alle kunder med en aktiv vedlikeholdsavtale for klynger på støttede kodeversjoner. Hvis du oppfyller disse kravene, åpner du en serviceforespørsel (SR) på nettstedet for Dells online kundestøtte og ber om en "Isilon Health Check". Oppgi fullstendige logger for tilstandskontrollen ved å kjøre denne kommandoen
# isi diagnostics gather start --gather-mode full
*Tilstandskontrollen er ikke ment for å løse klyngeproblemer eller vurdere klyngens konfigurasjon, ytelse eller arbeidsflyt.
- Utfør en "kald omstart" av hver node ved å utføre følgende trinn. Det bør planlegges et vedlikeholdsvindu for denne aktiviteten.
Merk: Denne prosessen gjør at du kan identifisere eventuelle minnefeil eller stasjonsfeilmoduser som bare oppdages når noden slås på igjen.
- Slå av hver node i klyngen, én om gangen. Slik slår du av hver node:
- Åpne en SSH-tilkobling til en node. Slå av hver node ved å kjøre følgende kommando:
isi config shutdown <node_lnn>
- Kontroller at hver node er slått av ved å bekrefte at den grønne LED-lampen for strømindikatoren på baksiden av noden ikke lenger lyser.
- Trykk på av/på-knappen for å slå på noden igjen.
- Kontroller at noden er koblet til klyngen igjen og er i god stand, ved å kjøre
isi status -qkommando og ser etter OK i kolonnen Helse DASR i utdataene. - Hvis en node støter på problemer som er angitt i Health DASR-kolonnen, eller ikke klarer å bli med i klyngen igjen, kan du løse disse problemene før du slår av neste node.
Et eksempel på et problem er valgt. Node 1 har sluttet seg til klyngen vellykket, men Helse DASR-kolonnen indikerer at den trenger oppmerksomhet.
mycluster-1# isi status -q Cluster Name: mycluster Cluster Health: [ ATTN] Cluster Storage: HDD SSD Size: 11G (23G Raw) 0 (0 Raw) VHS Size: 11G Used: 7.9G (69%) 0 (n/a) Avail: 3.5G (31%) 0 (n/a) Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.1.16.141 |-A-- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs) 2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs) 3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs) 4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs) -------------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Dobbeltsjekk tilstanden til hele klyngen etter at du har startet hver node på nytt. Åpne en SSH-tilkobling til en node og kjør kommandoen nedenfor:
isi status -q
isi config reboot <node_lnn>
Dell anbefaler imidlertid på det sterkeste at du bruker kald omstart-tilnærmingen for å identifisere latente maskinvareproblemer mer effektivt.
Fase 2: Slå av hver node i klyngen.
Disse trinnene skal utføres samme dag som du slår av Isilon-klyngen. Under en klyngeomfattende avslutning kan enkelte faktorer påvirke eller forsinke avslutningsprosessen. Utestående dataskrivinger til en node kan for eksempel påvirke avslutningen. Hensikten med trinn 1–2 er å sikre at alle klienter kobles fra klyngen, og at data lagres riktig fra nodejournaler til filsystemet før avslutningskommandoen kjøres. Hvis du har iSCSI-klienter, må du sørge for at du avslutter klientene før iSCSI-tjenesten deaktiveres.
Trinn 3 beskriver hvordan du slår av hver node i klyngen sekvensielt ved hjelp av en seriell konsoll. Denne metoden anbefales fordi den gjør det mulig å kontrollere at hver node er ordentlig slått av før du fortsetter til neste node, og foreta justeringer eller løse problemer etter behov for å sikre en riktig avslutning av klyngen. Denne metoden kan imidlertid være tidkrevende fordi den krever tilkobling av en seriell konsoll til hver node for å kjøre avslutningskommandoen. Delen Avslutt alle noder i klyngen samtidig beskriver hvordan du bruker OneFS-kommandolinjegrensesnittet eller OneFS-webadministrasjonsgrensesnittet til å slå av klyngen. Denne metoden er mindre tidkrevende enn trinn 3, men gjør det mer utfordrende å identifisere noder som støter på problemer under avslutningsprosessen.
- Isilon anbefaler å isolere klyngen fra klienter for å sikre at skrivetunge klienter ikke hindrer avslutningsprosedyren. Du kan gjøre dette ved å deaktivere klientrettede tjenester som kjører på klyngen. Utfør følgende fremgangsmåte for å deaktivere klientrettede tjenester:
- Identifiser klientrettede tjenester eller protokoller som kjører på klyngen, ved å kjøre følgende kommandoer for hver klientrettede tjeneste:
isi services apache2 isi services isi_hdfs_d isi services isi_iscsi_d isi services ndmpd isi services nfs isi services smb isi services vsftpd
- B. Dokumenter tjenestene som er "aktivert" på klyngen basert på utdataene for hver kommando. Valgt i eksemplet nedenfor, er SMB-tjenesten aktivert mens NFS-tjenesten er deaktivert:
mycluster-4# isi services smb Service 'smb' is enabled. mycluster-4# isi services nfs Service 'nfs' is disabled. mycluster-4#
- Deaktiver klientrettede tjenester. Etter dette trinnet mister alle klientene umiddelbart tilkoblingen til klyngen. Hvis du vil deaktivere en tjeneste, kjører du følgende kommando som er knyttet til tjenesten du har aktivert.
isi services apache2 disable isi services isi_hdfs_d disable isi services isi_iscsi_d disable isi services ndmpd disable isi services nfs disable isi services smb disable isi services vsftpd disable
Hvis du har iSCSI-klienter, må du sørge for at iSCSI-klientene har demontert LUN-ene før du utfører trinn 2. Kjør isi iscsi list -kommandoen for å bekrefte at alle iSCSI-klienter er koblet fra klyngen.
Merk: Hvis du deaktiverer iSCSI-tjenesten, må du kontrollere at du har slått av iSCSI-klienter før du kjører
isi_iscsi_d disable kommando. Avbrudd i en montert iSCSI LUN kan føre til skade på klienten, noe som vanligvis krever gjenoppretting fra sikkerhetskopiering.
- Flytt dataskrivinger som er lagret i nodejournaler, til filsystemet ved å kjøre
isi_for_array isi_flushkommando. Utdata som ligner på følgende, vises på hver node:
Merk: Når du kjører isi_flush vil den IKKE stoppe før spylingen er fullført på en node, eller noden er slått av eller får panikk. Du kan ikke ctrl + c ut av spylingen hvis det skulle være problemer.
mycluster-4# isi_for_array isi_flush mycluster-1: Flushing cache... mycluster-1: Cache flushing complete.
mycluster-4# isi_for_array isi_flush mycluster-1: Flushing cache... vinvalbuf: flush failed, 1 clean and 0 dirty bufs remaining mycluster-2: Flushing cache... fsync: giving up on dirty
Kjør isi_for_array isi_flush kommando igjen. Hvis en node ikke spyler, kan du kontakte Dell Isilons tekniske kundestøtte. Alle noder må tømmes før du går videre til neste trinn.
- Slå av hver node i klyngen sekvensielt og overvåk utdataene. Denne tilnærmingen anbefales fordi den gjør det mulig å identifisere og løse eventuelle problemer før du slår av neste node i klyngen. Avslutt hver node ved å utføre følgende trinn:
Forsiktig: IKKE kjør
isi_for_array shutdown -p kommando for å slå av klyngen.
- Koble en seriekonsoll til hver node.
- Kjør følgende kommando:
isi config shutdown
Powering the system off using ACPI
- C. Hold øye med konsollen, og se etter maskinvarerelaterte feilhendelser. Vellykkede lagring av nodejournaler velges i følgende utdatavarianter:
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Attempting to save journal to default location 2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Saving journal to /var/journal/journal.gz 2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: All data saved successfully 2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: Attempting to save journal to default location 2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: A valid backup journal already exists. Not saving. An example of a node journal save failure is highlighted in the output below: 2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: ERROR: Validation failed for backup journal. Shutdown aborted 2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: Failed command output:
Hvis du får en feilmelding som nodejournalen ikke lagret, kan du lagre journalen manuelt ved å utføre trinnene i fase 3.
Slå av alle noder i klyngen samtidig.
Hvis det oppstår et nødstilfelle, kan du slå av alle noder i klyngen samtidig. Denne metoden anbefales imidlertid ikke fordi den ikke lar deg overvåke statusen og utdataene til hver node i tilfelle det oppstår et problem. Hvis du velger å følge disse trinnene, anbefaler Dell på det sterkeste at du følger alle trinnene i fase 3 for å bekrefte at alle nodene er slått av på riktig måte, etter at du har utført prosedyrene nedenfor.
Advarsel: Hvis du fjerner en strømkilde fra en node som ikke har fordypet data fra journalen til filsystemet, øker risikoen for tap av data betydelig. Kontakt Dell Isilon teknisk støtte hvis du trenger hjelp med avslutningsprosedyren.
# isi config shutdown all
isi_for_array shutdown -p kommando for å slå av klyngen fra OneFS-grensesnittet for nettadministrasjon i OneFS 8.0 og nyere.
Fase 3: Kontroller at nodene er slått av.
Bekreft at nodene er ordentlig slått av ved å se på strømindikatoren lysdiode (LED) på baksiden av noden. Alle strømindikatorlampene skal lyse mørke eller AV. Dette indikerer at noden er avsluttet.
Hvis strømindikatorlampen på baksiden av noden fortsatt lyser, har ikke noden slått seg av. Hvis noden ikke er slått av, eller hvis du mottar konsollutdata som indikerer at nodejournalen ikke ble lagret riktig (fra fase 2, trinn 3C), må du lagre journalen manuelt for å sikre at dataene er koblet til disken før du avslutter noden.
- Hvis du vil lagre journalen manuelt og avslutte noden, utfører du følgende trinn:
- Hvis noden reagerer på kommandolinjegrensesnittet, starter du noden på nytt ved å kjøre følgende kommando:
# isi config reboot
- Hvis noden ikke reagerer på kommandolinjegrensesnittet, starter du den på nytt manuelt ved å trykke på og holde inne strømknappen på baksiden av noden. Dette fører til at noden slås av. Vent i 30 sekunder, og trykk deretter én gang på strømknappen for å starte nodesikkerhetskopien på nytt. Gå til neste trinn.
- Når du har startet noden på nytt, logger du på igjen og bruker følgende trinn for å lagre journalen:
- Prøv å slå av noden på nytt ved å kjøre følgende kommando:
# isi config shutdown
- Hvis utdataene fremdeles indikerer at journalen ikke ble lagret, lagrer du journalen manuelt ved å kjøre følgende kommando:
# isi_save_journal
- Hvis journalen fremdeles ikke lagrer, demonterer du filsystemet, /ifs og tvungen lagrer journalen ved å kjøre følgende kommandoer:
# isi_kill_busy && umount /ifs
- Kontroller at journalen er lagret ved å kjøre isi_checkjournal-kommandoen.
# isi_checkjournal
- Ikke gå til neste trinn før utdataene indikerer at journalen er lagret.
Kontakt Dells tekniske kundestøtte ved behov.
Fase 4: Koble fra strømkilden.
Etter at klyngen er avsluttet og nodene er slått av, må strømkilden kobles fra klyngen.
NVRAM-batterier
Når en klient skriver en fil til en node, lagres skriveoperasjonene først i permanent RAM (NVRAM) på nodens journalkort. Noe senere sender OneFS disse skrivingene til disk. For å beskytte dataene som er lagret i NVRAM hvis et ikke-planlagt strømbrudd, er hver node utstyrt med NVRAM-batterier (to for redundans). En node som er slått av, men fortsatt er koblet til en strømkilde, fortsetter å oppdatere NVRAM-batteriene. Når strømkilden kobles fra noden, begynner NVRAM-batteriene å tømmes. Batterilevetiden i den nåværende generasjonen av noder (X200, S200, X400 og NL400) er omtrent fem dager. I forrige generasjon noder er NVRAM-batterilevetiden omtrent tre dager.
Dell Technologies anbefaler at du slår av noder på riktig måte for å unngå å være avhengig av NVRAM-batterier i lengre tid under strømbrudd.
Hvis NVRAM-batteriene på en node tømmes helt, starter noden opp til skrivebeskyttet modus og forblir i skrivebeskyttet modus i ca. 30 minutter til NVRAM-batteriene er fulladet. Når batteriene lades, går noden automatisk tilbake til normal lese-/skrivemodus.
Fase 5: Slå på hver node i klyngen.
Disse trinnene må utføres når du er klar til å starte Isilon-klyngen på nytt.
- Gjenopprett strømkilden til hver node.
- Trykk på strømknappen på frontpanelet eller baksiden av hver node for å starte dem opp.
- Når alle nodene er slått på, kjører du
isi status -qKommando for å gjennomgå tilstanden til klyngen din. Kontroller at alle noder er OK i Helse DASR-kolonnen og ikke er i skrivebeskyttet modus (R) før du fortsetter. For en sunn klynge skal utdata som ligner på følgende, vises:
Cluster Name: mycluster Cluster Health: [ OK ] Cluster Storage: HDD SSD Size: 11G (23G Raw) 0 (0 Raw) VHS Size: 11G Used: 7.9G (69%) 0 (n/a) Avail: 3.5G (31%) 0 (n/a) Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.1.16.141 |-OK- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs) 2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs) 3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs) 4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs) -------------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Se listen over aktiverte tjenester som ble opprettet i fase 2, trinn 1b, og aktiver tjenestene som ble deaktivert ved å kjøre én eller flere av følgende kommandoer:
isi services apache2 enable isi services isi_hdfs_d enable isi services isi_iscsi_d enable isi services ndmpd enable isi services nfs enable isi services smb enable isi services vsftpd enable
- Kontroller at klientene kan koble til klyngen og utføre sine vanlige arbeidsflyter. Klyngen skal fungere som normalt.
- Upload en full logg samle:
# isi_gather_info --esrs
- Utføre eller be om en Isilon-helsesjekk av det eksterne reaktive teamet (kundestøtte).
Trinn for å kjøre tilstandskontroller.
PowerScale: Slik kjører du IOCA Cluster Analysis Tool.
- Be om en helsesjekk ved hjelp av eksternt reaktivt støtteteam
Dette er tilgjengelig for alle kunder med en aktiv vedlikeholdsavtale for klynger på støttede kodeversjoner.
Hvis du oppfyller disse kravene, åpner du en serviceforespørsel (SR) på nettstedet for Dells online kundestøtte og ber om en "Isilon Health Check".
*Tilstandskontrollen er ikke ment for å løse klyngeproblemer eller vurdere klyngens konfigurasjon, ytelse eller arbeidsflyt.