Avamar: Avamarin keskeytetyt osiot, raidat ja hfscheck-viat
Summary: Tässä artikkelissa käsitellään keskeytettyjä osioita, raitoja ja Hfscheck-virheitä Avamarissa (oirekoodi 22632)
Symptoms
1. Seuraava virhe saattaa ilmetä Avamar Administrator Server -käyttöliittymässä. Viesti saattaa luoda Dial Home -palvelupyynnön (SR):
Symptom Code: 22632, Desc: A server disk has become suspended.
2. VAROITUS-viestit, jotka liittyvät perfbeat säikeet raportoidaan Tietojen tallennussolmuissa /data01/cur/gsan.log:
WARN: <0968> perfbeat::outoftolerance mbpersec=0.31 average=5.66
WARN: <1051> tperfstatechanger::execute server_exception(MSG_ERR_UNNECESSARY) diskid=0 newstate=suspended
WARN: <1084> changing disk 0 on node 0.3 to suspended state
3. pikanäppäimellä status.dpn Tulos osoittaa, että levyn raidat ovat suspendoituneet:
(Tämä tulos syntyy vain, kun "WARN <1084>" esiintyy.)
Esimerkki:
0.8 10.10.10.10 7.3.1-125 ONLINE fullaccess mhpu+0hpu+0hpu 1 false 7.36 16350564 3401334 56.0% 66%(onl:1,SUS:2374) 50%(onl:2439) 50%(onl:2433)
Tämä tulos osoittaa, että ripustettuja raitoja on 2374.
4. pikanäppäimellä hfscheck epäonnistuu, jos jokin osio keskeytetään, kun hfscheck on käynnissä. Esimerkki virheestä /data01/hfscheck/err.log tai /data01/cur/err.log aari:
ERROR: <0001> indexstripe::hfschecksweepbody stripe=0.0-1209 proxy=0.0-1209 indexelem([hash=ee9b2fe66b4bd472e28c4f41c5097dbeaba7131a stripe=0.1-DF8 offset=1285]) goodowner=true goodelem=false
Cause
Säännöllisesti, oletusarvoisesti viiden minuutin välein, gsan "testaa" I/O alijärjestelmä suorittamalla pieniä lukuja dataosioista.
Se tarkistaa, onko lukusuorituskyky 10 % normaaliin suorituskykyyn verrattuna.
Alla olevassa esimerkissä sanoma ilmaisee, että tietyssä solmussa, joka tuotti varoitusviestin, keskimääräinen lukusuorituskyky pitkällä koemäärällä hfscheck oli käynnissä on noin 54,03 Mt/s. Tässä nimenomaisessa testissä todellinen suorituskyky oli kuitenkin 0.57 Mt / s, mikä on alle "rajan", joka on 10% keskiarvosta tai 5.4029 Mt / sekunti.
Event Summary = perfbeat::outoftolerance mask=[hfscheck] average=54.03 limit=5.4029 mbpersec=0.57
Tämän testin alkuperäinen tarkoitus oli varoittaa, että I/O osajärjestelmä, joka aiheuttaa lukutehon liian hitaan.
Tässä tapauksessa hitaammin kuin 10% "keskimääräisestä" levystä I/O suorituskyky.
pikanäppäimellä perftriallimit Määrittää niiden peräkkäisten levynlukutestien määrän, joiden on oltava sallittuja ennen perfbeat epäilee, että levy saattaa olla vioittunut.
pikanäppäimellä perfinterval (oletus 300s tai 5 minuuttia) määrittää, kuinka kauan niiden välillä odotetaan perftriallimit testi.
Aika perfbeat epäilee, että levy on huonontunut, se kertoo gsan kylmän tilan saavuttamiseksi (lopeta kaikki levyyn liittyvä toiminta).
Se odottaa enintään 20 minuuttia (kiinteästi), kunnes gsan saavuttaaksesi tämän tilan ennen aikakatkaisua ja älä keskeytä levyä.
Jos kylmä tila saavutetaan, perfbeat Suorittaa perfcoldtriallimit (oletus 4) Lisää lukutestejä välein perfcoldinterval (oletuksena 30) sekunnin välein.
Vain jos kaikki nämä testit osoittavat, että levy on edelleen heikentynyt, levy keskeytetään.
Mahdolliset syyt keskeytettyihin levyihin:
-
Kun yrität saavuttaa kylmän tilan, gsan odottaa aina vähintään minuutin (kiinteä). Se odottaa myös kaikkia odottavia gsan-levyjä
I/Oliittyvät toimet niiden toiminnan loppuun saattamiseksi tai keskeyttämiseksi. Kylmän tilan saavuttamisen jälkeen käyttöjärjestelmä saattaa kuitenkin edelleen suorittaa levyäI/O, kuten välimuistin tyhjentäminen. Tämä huuhtelutoiminto on yksi mahdollinen selitys sille, miksi levyt keskeytyvät tarpeettomasti. Kun muistia on enemmän, tyhjennettävää välimuistitietoa voi olla paljon enemmän. -
Toinen mahdollinen selitys on, että suorituskykyhistoriatiedot eivät ennusta tarkasti, mikä odotetun levyn lukusuorituskyvyn pitäisi olla eri aikoina
gsanToiminta, koskagsan'sKäyttäytyminen on muuttunut liian nopeasti, jotta historia näkyisi (historia on viimeisten 10 päivän tehokkuusmittausten keskiarvo). -
Toinen mahdollinen selitys on, että voi olla ongelma, kuten se, että kaikkia ei odoteta
gsanlevyI/Otoimet niiden toiminnan loppuun saattamiseksi tai keskeyttämiseksi ennen kylmän tilan saavuttamista.
Lisäksi tutkimukset osoittivat, että hfscheck "indexsweep" vaihe (kun kaikki indeksiraitojen hajautukset luetaan ja suoritetaan sitten massiivisia satunnaisia kirjoituksia moniin Data Referenced Log (DRL) -tiedostoihin) testattu I/O Suorituskyky heikkenee merkittäväksi ajaksi.
Avamar Data Store Gen4-, Gen4s- ja Gen4T-tallennusjärjestelmissä kirjoitustoiminnot on priorisoitu lukutoimintoihin nähden. I/O osajärjestelmä on paljon pienempi. Lisäksi jotkin asemat (kuten Seagate Megalodon asemat) käyttävät joitakin erilaisia tekniikoita, jotka voivat sekoittaa suoritettavat testit perfbeat lanka.
Resolution
Tausta:
Tyypillisesti näkyy kolme erilaista varoitusviestiä gsan Lokit:
WARN: <0968> perfbeat::outoftolerance mbpersec=0.31 average=5.66
Varoitus <0968> ilmaisee, että kyseessä oli henkilö gsan I/O Testi oli hidas.
Tämä viesti voidaan ohittaa turvallisesti.
WARN: <1051> tperfstatechanger::execute server_exception(MSG_ERR_UNNECESSARY) diskid=0 newstate=suspended
Varoitus <1051> osoittaa, että hitaita lukukertoja oli niin paljon, että gsan harkittiin dataosion asettamista keskeytettyyn tilaan, mutta päätti olla tekemättä niin. Tämän MSG_ERR_UNNECESSARY osoittaa.
Tämä viesti voidaan ohittaa turvallisesti.
WARN: <1084> changing disk 0 on node 0.3 to suspended state
Varoitus <1084> tarkoittaa, että gsan on asettanut dataosion keskeytettyyn tilaan.
Tätä viestiä ei saa jättää huomiotta.
Ratkaisu:
Jos raidat ovat keskeytyneessä tilassa, tutki ja korjaa seuraavat tilanteet seuraavien ohjeiden mukaisesti:
Voit selvittää keskeytetyn osion sijainnin seuraavasti:
1. Kirjaudu Avamar Utility Node -palveluun järjestelmänvalvojana.
2. Nosta root-käyttäjäksi.
3. Lataa pääavaimet Avamaria kohti: Kirjautuminen Avamar-palvelimeen ja avainten lataaminen.
4. Suorita seuraava komento tunnistaaksesi keskeytetyn osion sijainnin:
mapall --noerror 'grep -i "suspended" /data01/cur/err.log'
5. Tarkastele skenaarioita sellaisina kuin ne liittyvät yllä oleviin tuloksiin:
-
-
muita toimenpiteitä ei tarvita. Raidat palaavat online-tilaan automaattisesti. On erittäin todennäköistä, että
hfscheckolivat käynnissä.
-
-
-
Jos raidat palaavat verkkoon automaattisesti, on erittäin todennäköistä, että roskien keräys tai
hfscheckolivat käynnissä. -
TÄRKEÄÄ: Tämä voi olla merkki levyongelmasta tai taustalla olevasta ongelmasta.
-
Vaikka asema ei ole vielä vioittunut, se on silti tarkistettava seuraavasti:
-
1. Määritä, mitkä fyysiset levyt liittyvät levyyn, jonka Avamar on keskeyttänyt. Virtuaalilevyn fyysisen levyn häiriöongelmat ovat yksi keskeyttämisen perimmäinen syy:
avsysreport pdisk vdisk=x
Tässä x on keskeytetyn virtuaalilevyn (dataosion) numero. Jos esimerkiksi ensimmäisessä tieto-osiossa näkyy ripustettuja raitoja, kysely vdis=0.
2. Varmista, että fyysisen levyn tasolla ei ole levyvirheitä, ennakoituja vikoja tai muita virheitä.
3. Varmista, että fyysisillä levyillä, jotka edustavat kyseisen solmun virtuaalilevyä, ei ole SCSI-virheitä (määritetty vaiheessa 1).
grep -i "MRMON\|scsi|Adaptec" /var/log/messages
4. Läpikirjoitustilassa olevat virtuaalilevyt voivat aiheuttaa levyn keskeytyksiä, koska niiden määrä on alhainen I/O. Tarkista tallentimen kirjoituskäytäntö:
mapall --noerror --all+ 'avsysreport vdisk | grep "Write Policy"'
Jos vaiheissa 2–4 havaitaan ongelmia, avaa palvelupyyntö Dell Technologiesin Avamar-tukeen lisätutkimuksia varten.
Skenaario# 3: Tarkista oletusarvo perftriallimit Asetukset:
1. Varmista, että perftriallimit on 0:
avmaint config --ava | grep perftriallimit
perftriallimit="0"
2. Jos perftriallimit on jotain muuta kuin nolla:
a. Päivitä se suorittamalla komento:
avmaint config --ava perftriallimit=0
b. Vahvista muutos:
avmaint config --ava | grep perftriallimit
perftriallimit="0"