Dell Unity: Tallennussuorittimet saattavat siirtyä huoltotilaan lokin tyhjenemisen vuoksi (/nbsnas-osio täyttyy täysin)
Summary: Levyjärjestelmä voi siirtyä huoltotilaan (tiedot eivät ole käytettävissä) lokien paisumisen vuoksi (Dell Correctable)
Symptoms
Kahden SP:n järjestelmissä yksi tallennusjärjestelmän SP siirtyy huoltotilaan, eikä koko järjestelmää voi käyttää hallintaliittymien kautta, mukaan lukien CLI, UI, REST API ja SMI-S. Tämä voi ilmetä myös siten, että tallennussuorittimet käynnistyvät uudelleen vuorotellen, kunnes molemmat tallennussuorittimet päätyvät huoltotilaan.
Unity-levyjärjestelmä, jossa molemmat tallennussuorittimet ovat huoltotilassa, ei palvele I/O:ta, joten kyseessä on Data Unavailable (DU) -tilanne.
VSA:ssa yksittäinen SP voi käynnistyä uudelleen huoltotilaan tai vain pysyä normaalitilassa menettäen hallinnan kummassakin tapauksessa.
Koko järjestelmää ei voi käyttää hallintarajapintojen kautta, mukaan lukien CLI, UI, REST API ja SMI-S.
SSH: n tai IPMI: n pitäisi toimia. IPMI toimii aina, SSH voi toimia vasta, kun ryhmä on vakautettu.
Tämä ongelma löytyy OE-versiosta 4.0.0.x ja on korjattu OE-versiosta 4.0.1.x.
Cause
Lokitiedosto /nbsnas/http/logs/mod_jk.log, joka tallentaa kaikki UI- ja REST-pyynnöt, sijaitsee ensisijaisen SP:n /nbsnas-hakemistoon liitetyssä tiedostojärjestelmässä. Ilman lokin kiertomekanismia tämän tiedoston paisuminen kuluttaa edelleen tiedostojärjestelmän käytettävissä olevaa tilaa. Muut sisäiset kuluttajat alkavat epäonnistua, kun tiedostojärjestelmässä ei ole tilaa. Yksi tallennussuorittimista siirtyy huoltotilaan, kun se havaitsee toistuvia vikoja kyseisissä osissa.
Laboratoriossa havaittiin, että kun tämä tapahtuu ja palvelut yrittävät epäonnistua toissijaiseen SP: hen, myös se kokee samat oireet. Tallennussuorittimet käynnistyvät uudelleen muutaman kerran vuorotellen, ja lopulta molemmat siirtyvät huoltotilaan.
Asiakkaat näkevät tämän ongelman, jos: käytä aina käyttöliittymää tai REST APIa tallennusjärjestelmän määrittämiseen tai avaa käyttöliittymä selaimessa ja jätä se sinne sulkematta. Vain käyttöliittymän käyttöoikeus, yleensä Kestää muutaman kuukauden, ennen kuin asiakkaat näkevät tämän ongelman. Jos asiakkaat käyttävät REST-ohjelmointirajapintaa tietojen kyselyyn tallennusjärjestelmästä usein, ongelma ilmenee nopeammin.
Havaittiin toinen ongelma, jossa päivitys Unity OE 4.0.1.8320161 -versioon saattaa pahentaa ongelmaa, koska se saattaa monistaa kyseisen lokitiedoston häiriöttömän päivityksen aikana, mikä nopeuttaa prosessia.
Voit tarkistaa tämän tarkistamalla tilankulutuksen /nbsbas-tiedostosta. Jos tilankulutus on vähäistä tai vähäistä, ongelma EI ilmennyt häiriöttömän päivityksen aikana, joten mitään muuta ei tarvita.
4.0.1.x-koodit sisältävät jo korjauksen pääongelmaan, joten itse lokin kierto toimii oikein.
Jos osion käyttöprosentti on erittäin suuri, vastaavat lokitiedostot on ehkä poistettava (edellyttää Dellin tukea).
Muistiinpanot-osassa on esimerkki tilankäytön tarkistamisesta ja poistettavista lokeista.
Dell on päättänyt poistaa Unity OE 4.0.1.8320161 -version Unity- ja UnityVSA-versioilta support.emc.com-versiosta. Päivitetty Unity OE -versio (4.0.1.8404134) julkaistiin syyskuussa 2016.
Resolution
Ongelman ratkaisemiseksi teknisellä tuella on oltava pääkäyttäjän oikeudet levyjärjestelmään.
Ota yhteys Unity-tukeen ja mainitse tämä tietämyskannan artikkeli: 489057
Additional Information
Esimerkki tilankäytön tarkistamisesta:
spX:~> df -h /nbsnas Filesystem Size Used Avail Use% Mounted on /dev/c4nasdba1 1013M 55M 908M 6% /nbsnas
Tämän aiheuttava loki tai lokit löytyvät kansiosta /nbsnas/http/logs:
spx:~> cd /nbsnas/http/logs spx:/nbsnas/http/logs> ll -h total 975M -rw-r--r-- 1 root root 12K Sep 8 13:32 access_log -rw-r--r-- 1 root root 165K Sep 8 08:45 access_log.1.gz -rw-r--r-- 1 root root 239K Sep 8 06:59 access_log.2.gz -rw-r--r-- 1 root root 1.6M Sep 8 13:32 error_log -rw-r--r-- 1 root root 167K Sep 3 04:56 error_log.1.gz -rw-r--r-- 1 root root 495M Sep 8 13:32 mod_jk.log <<<<<<<<<< -rw-r--r-- 1 root root 475M Sep 8 08:45 mod_jk.log.1 <<<<<<<<<<
svc_dc -lcd (list core dumps) saattaa myös näyttää muutamia vedoksia, joiden pääte on _mgmtd.
Ne luotiin, kun tallennussuorittimet toteutuvat paniikissa, koska jotkin palvelut eivät käynnisty (koska /nbsnas on täynnä).
spx:/> svc_dc -lcd ======================== [DC copier]: Available on backend: CP_dump_spb_CKM00161701xxx_2016-09-08_13_29_47_17275_ECOM core-dump_dump_spb_CKM00161701xxx_2016-09-08_08_46_23_778_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_18_19_11994_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_18_53_21524_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_41_05_11446_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_41_45_24620_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_13_28_30_3067_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_13_29_08_15086_mgmtd