PowerScale, Isilon, OneFS: Klusterin sammuttaminen oikein
Sommaire: Parhaat käytännöt PowerScale-klusterin asianmukaiseen sammuttamiseen sekä tiedot virheelliseen klusterin sammutukseen liittyvistä riskeistä. Vaiheittaiset ohjeet klusterin sammuttamiseksi oikein. Jotkin vaiheet on suoritettava 4–8 viikkoa ennen ajoitettua päivitystä. ...
Instructions
Johdanto
Tässä artikkelissa kerrotaan, miten Dell Isilon -klusteri sammutetaan oikein, ja artikkelissa on tietoja klusterin virheelliseen sammuttamiseen liittyvistä riskeistä.
Klusterissa väärin sammuneiden solmujen ei tulisi olla ilman järjestelmävirtaa pidempään kuin NVRAM-akun käyttöikä.
Tämä on noin kolmesta viiteen päivää solmun tyypistä riippuen.
Jos tiedot tallennetaan edelleen solmun päiväkirjaan ja solmu on ilman virtaa pidempään kuin NVRAM-akun käyttöikä, tietoja menetetään.
Jos näin tapahtuu useissa solmuissa, klusteri on luotava uudelleen.
Ota yhteyttä Dell Isilonin tekniseen tukeen, jos sinulla on kysyttävää tämän artikkelin toimenpiteistä tai tiedoista.
Toimenpide
Klusterin sammutus edellyttää pääkäyttäjän tunnistetietoja ja klusterin solmujen sarjakonsolin käyttöoikeuksia. Menettely on jaettu seuraaviin vaiheisiin.
- Vaihe 1: Suorita ennaltaehkäisevä huolto
- Vaihe 2: Sammuta kaikki klusterin solmut
- Vaihe 3: Solmujen sammumisen onnistumisen varmistaminen
- Vaihe 4: Irrota virtalähde
- Vaihe 5: Käynnistä klusterin jokainen solmu
- Vaihe 6: Suorita klusterin kuntotarkastus
Lue koko toimenpide ennen sammutusprosessin aloittamista. Näin varmistat, että ymmärrät kunkin vaiheen suorittamisen kontekstin ja järjestyksen.
Vaihe 1: Suorita ennaltaehkäisevä huolto.
Nämä vaiheet suoritetaan noin 4–8 viikkoa ennen suunniteltua seisokkia. Tämän vaiheen tarkoituksena on tunnistaa tuntemattomat tai piilevät laitteisto- tai laiteohjelmisto-ongelmat, jotka voivat estää sammuttamisen.
Jos koko klusterin laajuinen sammutus on tarpeen välittömästi, voit sammuttaa kaikki solmut samanaikaisesti OneFS-komentorivikäyttöliittymässä tai OneFS-hallintakäyttöliittymässä.
Dell suosittelee painokkaasti, että noudatat kaikkia vaiheen 3 vaiheita tietojen eheyden säilyttämiseksi hätäpysäytystilanteissa.
- Lataa tarvittaessa lokit historiatietoja varten.
# isi diagnostics gather start --gather-mode full
- Tee Isilon-kuntotarkastus tai pyydä sitä.
- Klusterin kunnon arvioidaan ja sen avulla varmistetaan, että se on hyvässä ja kannatettavassa toimintatilassa.
- Asiakas voi suorittaa sen PowerScalen avulla: IOCA-klusterianalyysityökalun suorittaminen
- Sen voi suorittaa etäreaktiivinen (asiakastuki) tiimi. Tämä on saatavilla kaikille asiakkaille, joilla on aktiivinen ylläpitosopimus klustereille, joilla on tuettu koodiversio. Jos nämä vaatimukset täyttyvät, avaa Dellin online-tukisivustossa palvelupyyntö (SR), jossa pyydetään "Isilon-kuntotarkastusta". Anna kuntotarkastuksen täydelliset lokit suorittamalla tämä komento:
# isi diagnostics gather start --gather-mode full
*Kuntotarkistuksen tarkoituksena ei ole korjata klusterin ongelmia tai arvioida klusterin kokoonpanoa, suorituskykyä tai työnkulkua.
- Suorita kunkin solmun "kylmä uudelleenkäynnistys" seuraavasti. Tälle toiminnalle on ajoitettava huoltoikkuna.
Huomautus: Tämän prosessin avulla voit tunnistaa muistivirheet tai aseman vikatilat, jotka havaitaan vain, kun solmu käynnistetään uudelleen.
- Sammuta klusterin jokainen solmu yksi kerrallaan. Kunkin solmun sammuttaminen:
- Avaa SSH-yhteys mihin tahansa solmuun. Sulje jokainen solmu suorittamalla seuraava komento:
isi config shutdown <node_lnn>
- Varmista, että kukin solmu on sammunut varmistamalla, että solmun takana oleva vihreä virran merkkivalo ei enää syty.
- Käynnistä solmu uudelleen painamalla virtapainiketta.
- Varmista, että solmu on liitetty klusteriin uudelleen ja että se on kunnossa, suorittamalla
isi status -q-komennolla ja etsimällä OK tulosteen Health DASR -sarakkeesta. - Jos solmussa ilmenee Health DASR -sarakkeessa mainittuja ongelmia tai se ei pysty liittymään klusteriin uudelleen, ratkaise ongelmat ennen seuraavan solmun sulkemista.
Esimerkki ongelmasta valitaan. Solmu 1 on liittynyt klusteriin onnistuneesti, mutta Health DASR -sarakkeessa näkyy virheilmoitus, että se tarvitsee toimia.
mycluster-1# isi status -q Cluster Name: mycluster Cluster Health: [ ATTN] Cluster Storage: HDD SSD Size: 11G (23G Raw) 0 (0 Raw) VHS Size: 11G Used: 7.9G (69%) 0 (n/a) Avail: 3.5G (31%) 0 (n/a) Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.1.16.141 |-A-- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs) 2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs) 3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs) 4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs) -------------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Tarkista koko klusterin kunto uudelleen kunkin solmun uudelleenkäynnistyksen jälkeen. Avaa SSH-yhteys johonkin solmuun ja suorita seuraava komento:
isi status -q
isi config reboot <node_lnn>
Dell suosittelee kuitenkin kylmäkäynnistyksen käyttöä, jotta piilevät laitteisto-ongelmat voidaan tunnistaa entistä tehokkaammin.
Vaihe 2: Sammuta kaikki klusterin solmut.
Nämä toimet tehdään päivänä, jolloin Isilon-klusteri sammutetaan. Koko klusterin laajuisen sammutuksen aikana sammutukseen voivat vaikuttaa muutamat tekijät tai viivästyttää sitä. Esimerkiksi solmuun kirjoitetut keskeneräiset tiedot voivat vaikuttaa sammutukseen. Vaiheiden 1–2 tarkoituksena on varmistaa, että kaikki asiakkaat ovat irrallaan klusterista ja että tiedot tallennetaan oikein solmun kirjauskansioista tiedostojärjestelmään ennen sammutuskomennon suorittamista. Jos käytössä on iSCSI-asiakkaita, on suljettava ne ennen kuin iSCSI-palvelu poistetaan käytöstä.
Vaiheessa 3 kuvataan, miten klusterin kukin solmu sammutetaan peräkkäin sarjakonsolin avulla. Tätä menetelmää suositellaan, koska sen avulla voidaan varmistaa, että kukin solmu on sammutettu oikein, ennen kuin siirrytään seuraavaan solmuun, ja tehdä tarvittaessa muutoksia tai korjata ongelmia klusterin asianmukaisen sammutuksen varmistamiseksi. Tämä menetelmä voi kuitenkin olla aikaa vievä, koska se edellyttää sarjakonsolin liittämistä kuhunkin solmuun sammutuskomennon suorittamista varten. Sammuta kaikki klusterin solmut samanaikaisesti -osassa kuvataan, miten klusteri sammutetaan OneFS-komentorivikäyttöliittymässä tai OneFS-verkkohallintakäyttöliittymässä. Tämä menetelmä vie vähemmän aikaa kuin vaihe 3, mutta vaikeuttaa sammutusprosessin aikana ongelmia kohtaavien solmujen tunnistamista.
- Isilon suosittelee klusterin eristämistä asiakkaista, jotta paljon kirjoitusta vaativat asiakkaat eivät estä sammutusta. Voit tehdä tämän poistamalla klusterissa käynnissä olevat asiakaspalvelut käytöstä. Poista asiakaspalvelut käytöstä seuraavasti:
- Voit tunnistaa klusterissa käynnissä olevat asiakasohjelmat ja protokollat suorittamalla seuraavat komennot kullekin asiakkaalle suunnatulle palvelulle:
isi services apache2 isi services isi_hdfs_d isi services isi_iscsi_d isi services ndmpd isi services nfs isi services smb isi services vsftpd
- B. Kirjaa klusterissa käyttöön otetut palvelut kunkin komennon tuloksen perusteella. Alla olevassa esimerkissä SMB-palvelu on käytössä, kun taas NFS-palvelu on poistettu käytöstä:
mycluster-4# isi services smb Service 'smb' is enabled. mycluster-4# isi services nfs Service 'nfs' is disabled. mycluster-4#
- Poista asiakkaille suunnatut palvelut käytöstä. Tämän vaiheen jälkeen kaikkien asiakkaiden yhteys klusteriin katkeaa välittömästi. Voit poistaa palvelun käytöstä suorittamalla seuraavan komennon, joka liittyy käyttöön otettuun palveluun.
isi services apache2 disable isi services isi_hdfs_d disable isi services isi_iscsi_d disable isi services ndmpd disable isi services nfs disable isi services smb disable isi services vsftpd disable
Jos käytössä on iSCSI-asiakkaita, varmista ennen vaiheen 2 suorittamista, että iSCSI-asiakkaat ovat irrottaneet LUN-asemansa. Suorita isi iscsi list Komento, jolla vahvistetaan, että kaikki iSCSI-asiakkaat on irrotettu klusterista.
Huomautus: Jos poistat iSCSI-palvelun käytöstä, varmista että olet sulkenut iSCSI-asiakkaat ennen
isi_iscsi_d disable komento. Asennetun iSCSI-LUN-levyn vaurioituminen voi vahingoittaa asiakasta, mikä edellyttää yleensä palautusta varmuuskopiosta.
- Solmun kirjauskansioihin tallennettujen tietojen kirjoittamisen siirtäminen tiedostojärjestelmään suorittamalla
isi_for_array isi_flushkomento. Kussakin solmussa näkyy seuraavankaltainen tulos:
Huomautus: kun suoritat isi_flush, se EI lopu, ennen kuin solmun huuhtelu on valmis tai solmu on sammunut tai joutunut paniikkiin. Et voi ctrl+c pois väristä, jos ongelmia ilmenee.
mycluster-4# isi_for_array isi_flush mycluster-1: Flushing cache... mycluster-1: Cache flushing complete.
mycluster-4# isi_for_array isi_flush mycluster-1: Flushing cache... vinvalbuf: flush failed, 1 clean and 0 dirty bufs remaining mycluster-2: Flushing cache... fsync: giving up on dirty
Suorita isi_for_array isi_flush komento uudelleen. Jos jonkin solmun tyhjennys epäonnistuu, ota yhteys Dell Isilonin tekniseen tukeen. Kaikkien solmujen on tyhjennyttävä ennen seuraavaan vaiheeseen jatkamista.
- Sammuta klusterin jokainen solmu peräkkäin ja valvo tuloksia. Tätä menetelmää suositellaan, koska sen avulla voidaan tunnistaa ja ratkaista mahdolliset ongelmat ennen klusterin seuraavan solmun sulkemista. Sammuta solmut seuraavasti:
Huomio: ÄLÄ suorita
isi_for_array shutdown -p komento klusterin sammuttamiseksi.
- Liitä sarjakonsoli jokaiseen solmuun.
- Suorita seuraava komento:
isi config shutdown
Powering the system off using ACPI
- joht. Tarkkaile konsolia ja etsi laitteistoon liittyviä vikatapahtumia. Onnistuneet solmun kirjauskansion tallennukset valitaan seuraavissa lähtömuunnelmissa:
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Attempting to save journal to default location 2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Saving journal to /var/journal/journal.gz 2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: All data saved successfully 2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: Attempting to save journal to default location 2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: A valid backup journal already exists. Not saving. An example of a node journal save failure is highlighted in the output below: 2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: ERROR: Validation failed for backup journal. Shutdown aborted 2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: Failed command output:
Jos saat virheen, jota solmun kirjauskansio ei tallentanut, voit tallentaa kirjauskansion manuaalisesti suorittamalla vaiheen 3 vaiheet.
Sammuta kaikki klusterin solmut samanaikaisesti.
Hätätilanteessa voit sulkea kaikki klusterin solmut samanaikaisesti. Tätä menetelmää ei kuitenkaan suositella, koska sen avulla ei voi valvoa kunkin solmun tilaa ja tulosta ongelmatilanteissa. Jos päätät tehdä nämä toimet, Dell suosittelee seuraavien toimenpiteiden jälkeen noudattamaan kaikkia vaiheen 3 vaiheita ja varmistamaan, että kaikki solmut on sammutettu oikein.
Varoitus: Jos poistat virtalähteen solmusta, joka ei ole tyhjentänyt tietoja päiväkirjastaan tiedostojärjestelmään, tietojen menetyksen riski kasvaa huomattavasti. Jos tarvitset sammutusapua, ota yhteys Dell Isilonin tekniseen tukeen.
# isi config shutdown all
isi_for_array shutdown -p komento, jolla klusteri sammutetaan OneFS-hallintakäyttöliittymässä OneFS 8.0 -versiossa ja uudemmissa.
Vaihe 3: Varmista, että solmujen sammuminen onnistui.
Varmista, että solmut ovat sammuneet oikein, katsomalla virran merkkivalon merkkivalon merkkivaloa, joka sijaitsee solmun takana. Kaikkien virran merkkivalojen pitäisi palaa tummina tai sammuneina. Tämä tarkoittaa, että solmu on sammutettu onnistuneesti.
Jos solmun takana oleva virran merkkivalo palaa edelleen, solmu ei ole sammunut. Jos solmua ei ole sammutettu tai jos saat konsolitulosteen, joka ilmoittaa, että solmun päiväkirja ei tallentunut oikein ( vaiheesta 2, vaiheesta 3C), sinun on tallennettava kirjauskansio manuaalisesti varmistaaksesi, että tiedot on sidottu levylle, ennen kuin solmu suljetaan.
- Voit tallentaa kirjauskansion manuaalisesti ja sulkea solmun seuraavasti:
- Jos solmu reagoi komentoriviliittymään, käynnistä solmu uudelleen suorittamalla seuraava komento:
# isi config reboot
- Jos solmu ei vastaa komentoriviliittymään, käynnistä solmu manuaalisesti uudelleen pitämällä solmun takana olevaa virtapainiketta painettuna. Tämä aiheuttaa solmun sammumisen. Odota 30 s ja käynnistä solmun varmuuskopiointi uudelleen painamalla virtapainiketta kerran. Siirry seuraavaan vaiheeseen.
- Kun olet käynnistänyt solmun uudelleen, kirjaudu takaisin sisään ja tallenna päiväkirja seuraavasti:
- Yritä sammuttaa solmu uudelleen suorittamalla seuraava komento:
# isi config shutdown
- Jos tulos osoittaa edelleen, että kirjauskansiota ei tallennettu, tallenna kirjauskansio manuaalisesti suorittamalla seuraava komento:
# isi_save_journal
- Jos kirjauskansio ei vieläkään tallennu, poista tiedostojärjestelmä, /ifs ja pakota sitten kirjauskansio tallentamaan suorittamalla seuraavat komennot:
# isi_kill_busy && umount /ifs
- Varmista isi_checkjournal-komennolla, että kirjauskansio on tallennettu.
# isi_checkjournal
- Älä siirry seuraavaan vaiheeseen, ennen kuin tulos osoittaa, että kirjauskansion tallennus onnistui.
Ota tarvittaessa yhteyttä Dellin tekniseen tukeen .
Vaihe 4: Irrota virtalähde.
Kun klusteri on sammutettu ja solmut sammutettu, vasta sitten virtalähde voidaan irrottaa klusterista.
NVRAM-akut
Kun asiakas kirjoittaa tiedoston solmuun, kirjoitukset tallennetaan ensin NVRAM-muistiin (Nonvolatile RAM), jota isännöidään solmun kirjauslokikortilla. Jonkin ajan kuluttua OneFS vahvistaa kirjoitukset levylle. NVRAM-muistiin tallennettujen tietojen suojaamiseksi suunnittelemattoman sähkökatkoksen sattuessa jokainen solmu on varustettu NVRAM-akuilla (kaksi redundanssia varten). Solmu, joka on sammuksissa, mutta pysyy yhteydessä virtalähteeseen, jatkaa NVRAM-akkujen päivittämistä. Kun virtalähde irrotetaan solmusta, NVRAM-akut alkavat tyhjentyä. Akunkesto nykyisen sukupolven solmuissa (X200, S200, X400 ja NL400) on noin viisi päivää. Edellisen sukupolven solmuissa NVRAM-akun kesto on noin kolme päivää.
Dell Technologies suosittelee solmujen sammuttamista oikein, jotta ne eivät ole riippuvaisia NVRAM-akuista pitkään sähkökatkoksen aikana.
Jos solmun NVRAM-akut tyhjenevät kokonaan, solmu käynnistyy vain luku -tilaan ja pysyy vain luku -tilassa noin 30 minuuttia, kunnes NVRAM-akut latautuvat täyteen. Kun akut on ladattu, solmu palaa automaattisesti normaaliin luku-/kirjoitustilaan.
Vaihe 5: Käynnistä klusterin jokainen solmu.
Nämä toimet tehdä, kun olet valmis käynnistämään Isilon-klusterin uudelleen.
- Palauta kunkin solmun virtalähde.
- Käynnistä solmut painamalla kunkin solmun etupaneelissa tai takana olevaa virtapainiketta.
- Kun kaikki solmut on käynnistetty, suorita
isi status -qkomento, jolla voit tarkistaa klusterin kunnon. Varmista ennen jatkamista, että Health DASR -sarakkeen kaikki solmut ovat kunnossa eivätkä vain luku -tilassa (R). Jos klusteri on terve, näyttöön pitäisi tulla seuraavankaltainen tulos:
Cluster Name: mycluster Cluster Health: [ OK ] Cluster Storage: HDD SSD Size: 11G (23G Raw) 0 (0 Raw) VHS Size: 11G Used: 7.9G (69%) 0 (n/a) Avail: 3.5G (31%) 0 (n/a) Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.1.16.141 |-OK- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs) 2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs) 3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs) 4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs) -------------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Katso vaiheessa 2 vaiheessa 1b luotujen käyttöön otettujen palveluiden luetteloa ja ota käytöstä poistetut palvelut käyttöön suorittamalla vähintään yksi seuraavista komennoista:
isi services apache2 enable isi services isi_hdfs_d enable isi services isi_iscsi_d enable isi services ndmpd enable isi services nfs enable isi services smb enable isi services vsftpd enable
- Varmista, että asiakkaat voivat muodostaa yhteyden klusteriin ja suorittaa tavalliset työnkulkunsa. Klusterin pitäisi toimia normaalisti.
- Uplo ad täydellinen lokien kerääminen:
# isi_gather_info --esrs
- Suorita tai pyydä Isilon-kuntotarkastusta etäreaktiivisen (asiakastuki) tiimin toimesta.
Terveystarkastusten suorittamisen vaiheet.
PowerScale: IOCA:n klusterianalyysityökalun suorittaminen.
- Pyydä kuntotarkistusta reaktiivisen etätukitiimin avulla
Tämä on saatavilla kaikille asiakkaille, joilla on aktiivinen ylläpitosopimus klustereille, joilla on tuettu koodiversio.
Jos nämä vaatimukset täyttyvät, avaa Dellin online-tukisivustossa palvelupyyntö (SR), jossa pyydetään "Isilon-kuntotarkastusta".
*Kuntotarkistuksen tarkoituksena ei ole korjata klusterin ongelmia tai arvioida klusterin kokoonpanoa, suorituskykyä tai työnkulkua.