Mikä HDFS on? (Hadoop Distributed File System)
概要: HDFS:n (Hadoop Distributed File System) selitys. Lisäksi tässä artikkelissa kuvataan HDFS:n käyttöä ja annetaan esimerkki.
手順
Mikä HDFS on? (Hadoop Distributed File System)
Tosiasiat
Hadoop Distributed File System -
vastaus
Tietoja Hadoop Distributed File System (HDFS) -järjestelmästä
Hadoop-klusterin® skaalaaminen sadoihin (ja jopa tuhansiin) solmuihin on mahdollista skaalata ensin Hadoop HDFS (Distributed File System) -järjestelmästä. Hadoop-klusterin
tiedot on jaettu pienemmiksi osiksi (lohkoiksi) ja hajautetuiksi koko klusteriin. Tällä tavoin kartan ja toimintojen pienentäminen voidaan suorittaa suurempien tietojoukkojen pienemmissä alijoukoissa, mikä takaa big data -käsittelyyn tarvittavan skaalattavuuden.
Mikä on tavoite?
Hadoop käyttää yleisesti saatavilla olevia palvelimia erittäin suuressa klusterissa, jossa kullakin palvelimella on edullisia sisäisiä levyasemia. Suorituskyvyn parantamiseksi MapReduce
yrittää määrittää työkuormia palvelimiin, joihin käsiteltävät tiedot tallennetaan. Tätä kutsutaan tietojen paikallisukseksi. (Tämän periaatteen vuoksi Hadoop-ympäristössä ei suositella SAN-verkon tai NAS-tallennusjärjestelmän käyttämistä Hadoop-ympäristössä. San- tai NAS-verkkoyhteyttä käyttävissä Hadoop-käyttöönotoissa ylimääräinen verkkoviestinnän kuormittaminen voi aiheuttaa suorituskyvyn pullonkauloja erityisesti suuremmissa klustereissa.) Ajattele nyt 1 000 laitteen klusteria, jossa jokaisessa tietokoneessa on kolme sisäistä levyasemaa. Tarkastellaan sen jälkeen klusterin vikaantumisastetta, joka koostuu 3 000 edullisesta asemasta ja 1 000 edullisesta palvelimesta!
Olemme todennäköisesti jo samalla sivulla: Komponentti merkitsee aikaa vioittumiseen (MTTF), joka ilmenee Hadoop-klusterissa. Se on todennäköisesti analoginen postinumeron kanssa sen pilvessä: se epäonnistuu (ja postinumerot näyttävät epäonnistuvan vain silloin, kun todella tarvitset niitä). Hadoopissa on siistiä se, että edullisiin laitteistoihin liittyvien MTTF-nopeuksien todellisuus on itse asiassa hyvin ymmärtää (suunnittelupiste, jos kyllä), ja Hadoopin vahvuuksia on se, että sillä on sisäänrakennettu vikasietoisuus ja vikojen palkitsemisominaisuudet. Tämä on sama asia HDFS:ssä, jossa tiedot on jaettu lohkoihin ja näiden lohkojen kopiot tallennetaan muihin Hadoop-klusterin palvelimiin. Yksittäinen tiedosto siis tallennetaan pienempinä lohkoina, jotka replikoidaan useisiin koko klusterin palvelimiin.
Esimerkki HDFS:stä
Ajattele tiedostoa, joka sisältää kaikkien puhelinnumerot Yhdysvalloissa; Henkilöt, joiden sukunimi alkaa A:lla, saatetaan tallentaa esimerkiksi palvelimeen 1 tai B palvelimeen 2. Hadoop-maailmassa nämä puhelinmuistion osat tallennetaan klusteriin, ja koko puhelinkirjan uudelleenluontiin ohjelma tarvitsee kaikkien klusterin palvelinten lohkoja. HdFS replikoi nämä pienemmät osat oletusarvoisesti kahteen lisäpalvelimeen, koska komponentit epäonnistuvat. (Vikasietoisuutta voidaan lisätä tai vähentää tiedostokohtaisesti tai koko ympäristössä. Esimerkiksi Hadoop-kehitysklusteri ei yleensä tarvitse tietojen vikasietoisuutta.) Tämä vikasietoisuus tarjoaa useita etuja, ja on itsestäänselvintä, että tämä on parempi käytettävyys.
Tämän vikasietoisuuden ansiosta Hadoop-klusteri voi lisäksi hajota pienempiin lohkoihin ja suorittaa niitä kaikissa klusterin palvelimissa skaalattavuuden parantamiseksi. Voit myös hyödyntää tietojen paikallisuutta, joka on keskeisen tärkeää suurten tietojoukkojen kanssa. Kerromme näistä tärkeistä eduista myöhemmin tässä luvussa.