Avamar: Kapasiteetin hallinnan käsitteet ja koulutus
Summary: Tämä artikkeli koskee Avamar-käyttäjien ja käyttöjärjestelmän kapasiteetin hallintaa. Se on tarkoitettu Avamar-järjestelmänvalvojille tai niille, jotka valvovat Avamar-järjestelmän kuntoa ja joilta edellytetään käytännön tietoja käyttöjärjestelmän ja käyttäjän kapasiteettitasojen hallinnasta. ...
Symptoms
Tämän artiklan tavoitteet:
- Tee yhteenveto /data*-osioihin tallennetuista tietotyypeistä.
- Esittele käsite "käyttöjärjestelmän kapasiteetti" ja vertaa sitä käsitteeseen "käyttäjän kapasiteetti" (jota kutsutaan joskus nimellä "GSAN Capacity").
- Selitä, miksi Avamaria ei pidä käyttää lähellä käyttäjän kapasiteettirajaa.
- Luettele tekijät, jotka vaikuttavat tarkistuspisteen yleiskustannuksiin.
- Kuvaile, miten dataosion käyttöä valvotaan.
- Kuvaile oireita, joita ilmenee, jos käyttöjärjestelmän kapasiteetti riistäytyy hallinnasta.
- Luettele tyypilliset syyt
MSG_ERR_DISKFULLViesti. - Kuvaile palautusmenetelmät, joita käytetään, kun käyttöjärjestelmän suuri kapasiteetti vaikuttaa järjestelmän normaaliin toimintaan.
- Kuvaile oireita, joita ilmenee, jos käyttäjän kapasiteetti ylittää käyttäjän kapasiteettirajan.
- Keskustele siitä, miten voit palautua suuren käyttäjäkapasiteetin tilanteesta.
- Tarkistuspisteen vahvistus (HFS-tarkistus) epäonnistuu.
- Roskien keräys epäonnistuu ja raportit sisältävät
MSG_ERR_DISKFULL. - Tarkistuspisteen luonti epäonnistui.
- Varmuuskopiointi epäonnistuu.
- Saapuvat replikointityöt epäonnistuvat.
- Administrator-käyttöliittymässä järjestelmä on Admin-tilassa varmuuskopiointi-ikkunan aikana.
Cause
Resolution
Miten tiedot tallennetaan Avamar grid -järjestelmään?
Avamar-kapasiteetin hallinta koskee kaikkien Avamar-datasolmujen /data*-osioissa olevia tietoja. Tämä koostuu:- varmuuskopiot, joiden päällekkäisyys on poistettu
- RAIN-pariteettitiedot
- Tarkistuspisteen yläpuolella olevat tiedot
Tieto-osioissa tarvitaan myös vapaata tilaa, jotta huoltotehtävät, kuten roskien kerääminen ja asynkroninen raitojen rutistus, toimivat oikein.
Alla on graafinen esitys Avamar-tallennussolmujen dataosioiden fyysisestä tallennustilasta.
Miten tiedot tallennetaan tieto-osioihin?
Yllä olevassa kaaviossa näkyy yksinkertainen esitys siitä, miten tilaa käytetään dataosioissa.
Vasemmanpuoleinen 100 %:n arvo on käyttöjärjestelmän dataosioissa käytettävissä olevan fyysisen tilan kokonaismäärä.
Jos jokin tieto-osioista vie yli 85 % kokonaistilasta, roskien keräystä ei voida suorittaa.
100 %:n käyttäjäkapasiteettimerkintä (vain luku -rajoitus) ilmaisee, että jopa 65 % dataosion kokonaistilasta on käytettävissä deduplikoitujen tietojen tallentamiseen. Tämän 100 %:n käyttäjän kapasiteettimerkin alapuolella oleva tila vastaa järjestelmänvalvojan käyttöliittymässä näkyvää palvelimen käyttöarvoa. Jos minkä tahansa solmun johonkin dataosioon tallennettujen tietojen kaksoiskappaleiden määrä nousee 65 prosenttiin, Avamar-järjestelmä siirtyy vain luku -tilaan eikä sen enempää tarvitse varmuuskopioida.
Nyt ymmärretään, että Avamar Administrator -käyttöliittymässä käyttäjä näkee varmuuskopioinnin viemän tilan, mutta ei käyttöjärjestelmän dataosioissa käytettyä tilaa.
Miksi Avamar-järjestelmää ei saa käyttää lähellä käyttäjän kapasiteettirajaa.
User Capacity -arvon ja tarkistuspisteen kuormituksen suhde on sellainen, että kun järjestelmä täyttyy yhä enemmän, pienetkin varmuuskopiotietojen määrän lisäykset voivat lisätä tarkistuspisteen kuormitusta merkittävästi. Täydellinen keskustelu siitä, miksi näin on, ei kuulu tämän artikkelin soveltamisalaan, mutta tärkeä asia on muistaa:
- Mitä lähempänä Avamar-järjestelmä on 100-prosenttista käyttäjäkapasiteettia, sitä vähemmän käyttöjärjestelmän kapasiteettia on käytettävissä tarkistuspisteiden yleiskustannuksiin.
Jotta Avamar-järjestelmä toimisi luotettavasti suurella käyttäjäkapasiteetilla, sen on täytettävä seuraavat ehdot:
- Järjestelmässä on oltava vähän päivittäisiä muuttuneita tietoja (enintään 1 %)
- Kapasiteetin on oltava vakaassa tilassa (kuten Avamar Operational Best Practices Guide -oppaan kohdassa Kapasiteetin hallinta on kuvattu). Toimintaympäristöösi liittyvät oppaat löydät täältä: Avamar-dokumentaation etsiminen Dellin tukisivustosta.
- ylläpitotoimien on onnistuttava joka päivä.
Tarkistuspisteen kuormitukseen vaikuttavia tekijöitä:
Seuraavat tekijät voivat lisätä tarkistuspisteen kuormitusta.
- Raitojen asynkroninen rutistus (oletuksena käytössä)
- Järjestelmään tallennettujen tarkistuspisteiden määrä
- Tarkistuspisteen vahvistus ei onnistu joka päivä.
- Kuinka tyhjiä raidat ovat, kun Avamar-palvelin käyttää niitä uudelleen (muuttuu vakavammaksi palvelimen käytön kasvaessa)
- Varmuuskopioinnin päivittäinen muutosnopeus<
Tieto-osion käytön seuranta:
Oikea tapa valvoa käyttöjärjestelmän tieto-osion käyttöä on käyttää seuraavaa Avamar-komentoa Avamar Utility Node -palvelussa.
Esimerkiksi:
admin@utilitynode:~/>: avmaint nodelist | grep fs-percent
fs-percent-full="7.8"
fs-percent-full="6.3"
fs-percent-full="6.4"
fs-percent-full="6.4"
fs-percent-full="7.6"
fs-percent-full="6.2"
fs-percent-full="6.1"
fs-percent-full="6.6"
fs-percent-full="7.8"
fs-percent-full="6.4"
fs-percent-full="6.5"
fs-percent-full="6.8"
Tämä tulos näyttää aidon lukeman käyttöjärjestelmän kapasiteetin käyttöasteesta. Ruudukossa, jossa datasolmut käyttävät tiedostovarantoa, Linux df Komennolla ei ole merkitystä, koska raidat on varattu valmiiksi tiedostovarannossa ja monet raidat eivät ehkä ole käytössä.
Mitä tapahtuu, jos käyttöjärjestelmän kapasiteetin käyttöaste ei pysy hallinnassa?
Käyttäjän näkökulmasta ensimmäinen merkki siitä, että dataosion käyttö on hallitsematonta, tapahtuu, kun se nousee yli 85%.
Roskien keräys ei enää onnistu, ja se epäonnistuu
MSG_ERR_DISKFULL Virhesanoma.
Tässä tapahtuu usein väärinkäsityksiä.
Käyttäjä tulkitsee usein
MSG_ERR_DISKFULL -viesti, joka tarkoittaa, että järjestelmässä ei ole enää tilaa varmuuskopioille.
Tämä tulkinta ei ole oikea, mutta yleensä käyttäjä tarkistaa palvelimen käyttöarvon Avamar Administrator -käyttöliittymästä ja pitää arvoa hyväksyttävänä, esimerkiksi 60 %.
Käyttäjä voi yrittää poistaa varmuuskopioita Avamar-käyttöliittymän varmuuskopioinnin hallintakäyttöliittymästä. Vaikka käyttäjän kapasiteettitaso olisi korkea, varmuuskopioiden poistaminen ei helpottaisi tilannetta, koska roskien keräys ei pysty suorittamaan ja poistamaan vanhentuneita tietopaloja järjestelmästä.
- Jos järjestelmässä on sekä suuren käyttöjärjestelmän kapasiteettiongelma että suuri käyttäjäkapasiteetti, keskity ensin ratkaisemaan suuren käyttöjärjestelmän kapasiteettiongelma.
Mikä aiheuttaa MSG_ERR_DISKFULL-ilmoituksen?
Tyypillisin syy on liian suuri tarkistuspisteen kuormitus. Tarkistuspisteen suuri kuormitus johtuu tavallisesti seuraavista:
- Tarkistuspisteen validointi (
HFScheck) on epäonnistunut toistuvasti. HFScheckEpäonnistumisella on monia mahdollisia perussyitä (äkillinen peruutus, ohjelmistovika ja niin edelleen).- Järjestelmä on liian täynnä ja sen päivittäinen tiedonsiirtonopeus on suuri.
- järjestelmä tarvitsee lisää tietosolmuja tietojen muuttumistahdin käsittelemiseen ja tietojen säilytykseen
- järjestelmä on määritetty varmuuskopioimaan enemmän tietoja tai useampia työasemia kuin mihin sen koko riittää
- Liian monia tarkistuspisteitä tallennetaan (Avamar tallentaa oletusarvoisesti kaksi tarkistuspistettä, joista toinen on tarkistettu).
- Järjestelmänvalvoja loi ylimääräisiä tarkistuspisteitä.
- ylläpitotoimia on tehty hiljattain, mutta oletusarvoisia tarkistuspisteiden säilytyksiä ei palautettu.
MSR_ERR_DISKFULL situation: Avamar maintenance tasks fail with "MSG_ERR_DISKFULL" due to data partition operating system capacity >89%.
Toimet, joilla tutkitaan ja autetaan lievittämään käyttöjärjestelmän suurta kapasiteettia.
- Kun viimeinen HFScheck on valmis
suorittaa komennon cplist Avamar Utility Node komentorivillä.
admin@utilitynode:~/>: cplist cp.20110114111419 Fri Jan 14 11:14:19 2011 valid rol --- nodes 3/3 stripes 1131 cp.20110114194457 Fri Jan 14 19:44:57 2011 valid --- --- nodes 3/3 stripes 1131
- Tarkista, suoritettiinko HFScheck vai epäonnistuiko se.
Esimerkki:
Last hfscheck: finished Sat Jan 15, 11:07:17 2011 after 06m 41s >> checked 528 of 528 stripes (OK)
admin@utilitynode:~/>: dpnctl status Identity added: /home/admin/.ssh/dpnid (/home/admin/.ssh/dpnid) dpnctl: INFO: gsan status: ready dpnctl: INFO: MCS status: up. dpnctl: INFO: EMS status: up. dpnctl: INFO: Backup scheduler status: up. dpnctl: INFO: dtlt status: up. dpnctl: INFO: Maintenance windows scheduler status: enabled. dpnctl: INFO: Maintenance cron jobs status: enabled. dpnctl: INFO: Unattended startup status: disabled.
Jos Windowsin ylläpidon ajastin on poistettu käytöstä, ota se käyttöön komennolla dpnctl start maint.
Kun HFScheck on suoritettu onnistuneesti ja vanhin tarkistuspiste on poistettu järjestelmästä, käyttöjärjestelmän kapasiteetin pitäisi laskea huomattavasti.
Jos käyttöjärjestelmän kapasiteetti on edelleen liian suuri ja roskien keräys epäonnistuu MSG_ERR_DISKFULL-ilmoituksen myötä, Dell-tuen apua voidaan tarvita.
Muussa tapauksessa, jos käyttöjärjestelmän kapasiteetti on tarpeeksi alhainen roskien keräämiseen, vähennä "Käyttäjäkapasiteettia" ja pienennä "palvelimen käyttöaste" -lukua.
Toimet suuren käyttäjäkapasiteetin lievittämiseksi:
Avamar-järjestelmänvalvoja pystyy vaikuttamaan User Capacity -tasoihin helpommin ja suoremmin kuin käyttöjärjestelmän kapasiteetin käyttöasteeseen.
- Varmista, että roskien keräys on käynnissä joka päivä ja että varmuuskopiot eivät keskeytä sitä.
Tämä on tärkein kohta, koska jopa riittävän kokoinen järjestelmä kokee nopeasti suuren käyttäjäkapasiteetin, jos roskien keräys ei toimi säännöllisesti tai luotettavasti.
Kuten aiemmin näytettiin, varmista, että huoltoikkuna on käytössä, ja tarkista capacity.sh - ja sched.sh-komentosarjojen avulla, että roskien keräys on käynnissä ja että tietoja poistetaan.
Ennen Avamar 7.x:ää varmuuskopioita ei voitu suorittaa roskien keräämisen rajoitusikkunan aikana.
Avamar v7.x -toiminnon mukana esitelty Hash Referenced Bit Maps -ominaisuus mahdollistaa varmuuskopioinnin roskienkeruun ylläpitotoimien aikana. Tämä ominaisuus edellyttää, että näillä kartoilla on oltava vähintään 5 minuuttia "hiljaista" aikaa päivässä, jonka aikana varmuuskopioita ei suoriteta, jotta ne voidaan nollata.
Tätä ominaisuutta koskevaa sisältöä voi käyttää linkkinä Avamar-artikkeliin: Avamar v7:ssä Garbage Collection raportoi ohitetuista hajautusarvoista, joita ei voi puhdistaa "Hash Referenced Bit Maps" -määritysten vuoksi, kun tiedot ovat käytössä.
- Lopeta uusien asiakkaiden lisääminen ruudukkoon.
Kun Avamar-järjestelmä lähestyy kapasiteettiaan, uusien asiakkaiden lisääminen on lopetettava välittömästi, jotta tilanne ei pahene
.Jos käytössäsi on toinen Avamar-ruudukko, jonka palvelimen käyttöaste on alhaisempi, harkitse uusien asiakkaiden lisäämistä kyseiseen järjestelmään täyttyvän palvelimen sijasta.
- Katso, mitkä asiakkaat kuluttavat eniten tallennustilaa.
Kapasiteettiongelman ratkaisemiseksi meidän on selvitettävä, mitkä asiakkaat ovat vastuussa eniten tietojen lisäämisestä Avamar-järjestelmään.
capacity.sh-komentosarjan (joka suoritetaan Avamar Utility Node -komentoriviltä) avulla voidaan myös tunnistaa, millä asiakkailla on suurin vaihtonopeus.
Dellin rekisteröityneet käyttäjät voivat käyttää sisältöä käyttämällä linkkiä Avamar-artikkeliin: Kapasiteetin hallinta capacity.sh komentosarjan avulla saat lisätietoja capacity.sh-komentosarjan käyttämisestä.
Usein havaitaan, että "nälkäisimpiä" asiakkaita ovat ne, jotka varmuuskopioivat SQL-tietokantoja tai sähköpostipalvelimia, joten kiinnitä erityistä huomiota näihin.
- Arvioi säilytyskäytännöt uudelleen.
Kun olet tunnistanut suuren muutosnopeuden, arvioi säilytyskäytännöt uudelleen nähdäksesi, voidaanko niitä alentaa tallennusvaatimusten vähentämiseksi hyväksyttävälle tasolle.
Jos Avamar-järjestelmä ei ole vielä tarpeeksi vanha vanhentumiseen, säilytyskäytäntöjä on ehkä muutettava niin, että vanhimmat varmuuskopiot alkavat vanhentua.
Jos säilytyskäytäntöjen vähentäminen ei ole mahdollista lakisääteisten vaatimusten vuoksi, harkitse Avamar-järjestelmän laajentamista tai asiakkaiden siirtämistä toiseen, vähemmän käytettyyn Avamar-järjestelmään.
- Asiakkaiden siirtäminen vaihtoehtoiseen Avamar-järjestelmään
Jos käytettävissä on toinen Avamar-järjestelmä, harkitse mahdollisuutta siirtää suuria tai suuren muutosnopeuden asiakkaita korkeamman tason järjestelmistä vähemmän käytettyihin järjestelmiin Avamar Client Manager -käyttöliittymän kautta.
- Uusi Avamar-palvelin vaatii riittävästi tallennustilaa siirrettäviä Avamar-asiakkaita varten.
- pidä samantyyppisiä tietoja sisältävät työasemat samassa Avamar-järjestelmässä, jotta voit hyödyntää tietojen päällekkäisyyden poistamista tehokkaasti
- Tätä strategiaa käytetään parhaiten silloin, kun Avamar-järjestelmät ovat samassa lähiverkossa.
- Poista vanhoja varmuuskopioita.
Jos käyttäjän kapasiteettitaso on vakava (>90 %), vanhat varmuuskopiot on ehkä vanhennettava varmuuskopioinnin hallintaliittymän kautta tai muokkauslaajennustyökalulla.
Dell-käyttäjät pääsevät sisältöön käyttämällä linkkiä artikkeliin Avamar Capacity Management: Varmuuskopioiden poistaminen tai vanhentaminen kerralla modify-snapups-työkalulla.
Varmuuskopioiden poistaminen ei heti alenna palvelimen käyttöastetta. Sen avulla roskien kerääminen voi alkaa poistaa tietoja seuraavan kerran, kun roskien keräys suoritetaan. Vanhojen varmuuskopioiden poistaminen on lyhytaikainen kiertotapa. Varmuuskopiot vaihdetaan lähipäivinä. Jos varmuuskopioita poistetaan, myös säilytyskäytäntöjä on tärkeää säätää.
- Tietojen muutoksen seuranta capacity.sh avulla.
Kun varmuuskopiot on poistettu ja säilytyskäytäntöjä muutettu, tarkkaile järjestelmässä muuttuneiden tietojen määrää tarkasti capacity.sh komentosarjan avulla. Sinun pitäisi alkaa nähdä, että "poistetun" tietoarvon nousun ja "nettomuutoksen" arvon pitäisi muuttua negatiiviseksi. Lopulta Removed-arvon pitäisi palata normaalimmalle tasolle, kun ylimääräiset tiedot on poistettu järjestelmästä. Jatka Removed-arvon seuraamista.
Jos nettomuutosarvo ei muutu negatiiviseksi, tarkista roskien keräyslokista, kuinka kauan roskien keräys on käynnissä ja kuinka paljon työtä se saavuttaa huoltoikkunan sisällä.
Dell-käyttäjät pääsevät sisältöön käyttämällä linkkiä Avamar-artikkeliin: Kapasiteetin hallinta capacity.sh komentosarjan avulla on lisätietoja capacity.sh-komentosarjan käyttämisestä.
- Avamar-järjestelmän laajentaminen
Avamar-järjestelmän suuri käyttöaste johtuu usein luonnollisesta ja odotettavasta tietomäärän kasvusta. Tuotannon varmuuskopioinnin jatkamista varten on oltava käytettävissä enemmän tilaa.
Se, miten tämä voidaan tehdä, määräytyy Avamar-järjestelmän tyypin mukaan.
- Yksisolmuiset järjestelmät ja AVE (Avamar Virtual Edition) -järjestelmät
Näitä ei voi laajentaa. Ota käyttöön toinen, suurempi Avamar-järjestelmä ja pyydä Dell Professional Servicesiä suorittamaan järjestelmän siirto pienemmästä järjestelmästä suurempaan järjestelmään. Ammattilaispalveluihin voi osallistua Dellin asiakaspäällikön kautta.
Uusi järjestelmä voi olla yksittäinen solmu, AVE tai monisolmujärjestelmä, jos se tarjoaa enemmän tallennustilaa kuin lähde.
- Monisolmuiset järjestelmät
Nämä järjestelmät voidaan laajentaa jopa 16 datasolmuun. Ota yhteyttä Dellin tilivastaavaan saadaksesi lisätietoja. Tavalliset tukikanavat eivät tee solmulisäyksiä, joten tämän työn pyytämiseksi ei tule avata palvelupyyntöä.
- Integroi Data Domain
Data Domain -järjestelmän integrointi taustatallennuslaitteeksi on kätevä tapa laajentaa Avamariin varmuuskopioivien asiakkaiden käytettävissä olevaa kapasiteettia. Keskustele vaihtoehdoista Dellin asiakaspäällikön kanssa.
Additional Information
Hyödyllisiä työkaluja
- status.dpn
- capacity.sh
- Avalanche
- DPN Summary -raportti
- replcnt.sh
- Avamar Client Manager
Parhaat käytännöt:
-
Yritä estää Avamar Serverin käyttöasteen (User Capacity) arvoa nousemasta yli 80 prosenttiin.
-
Pienempi käyttäjäkapasiteetti tarjoaa sietokykyä odottamattomia muutoksia vastaan lisätyn tiedon määrässä ja voi suojata järjestelmää käyttökelvottomaksi, jos ilmenee odottamattomia vikoja tai lyhytaikaisia ongelmia ylläpitotehtävissä.
-
Avamar-järjestelmän, jonka käyttäjäkapasiteetti on yli 80 %, on oltava huolellisempi järjestelmänvalvojan toimesta sen varmistamiseksi, että ylläpitotoimet onnistuvat ja että järjestelmä ei ole vain luku -tilassa.