Mikä HDFS on? (Hadoop Distributed File System)

摘要: HDFS:n (Hadoop Distributed File System) selitys. Lisäksi tässä artikkelissa kuvataan HDFS:n käyttöä ja annetaan esimerkki.

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

说明

Kysymys
Mikä HDFS on? (Hadoop Distributed File System)

Tosiasiat
Hadoop Distributed File System -

vastaus

Tietoja Hadoop Distributed File System (HDFS) -järjestelmästä

Hadoop-klusterin® skaalaaminen sadoihin (ja jopa tuhansiin) solmuihin on mahdollista skaalata ensin Hadoop HDFS (Distributed File System) -järjestelmästä. Hadoop-klusterinKolmannen osapuolen kuvake tiedot on jaettu pienemmiksi osiksi (lohkoiksi) ja hajautetuiksi koko klusteriin. Tällä tavoin kartan ja toimintojen pienentäminen voidaan suorittaa suurempien tietojoukkojen pienemmissä alijoukoissa, mikä takaa big data -käsittelyyn tarvittavan skaalattavuuden.

Mikä on tavoite?

Hadoop käyttää yleisesti saatavilla olevia palvelimia erittäin suuressa klusterissa, jossa kullakin palvelimella on edullisia sisäisiä levyasemia. Suorituskyvyn parantamiseksi MapReduceKolmannen osapuolen kuvake yrittää määrittää työkuormia palvelimiin, joihin käsiteltävät tiedot tallennetaan. Tätä kutsutaan tietojen paikallisukseksi. (Tämän periaatteen vuoksi Hadoop-ympäristössä ei suositella SAN-verkon tai NAS-tallennusjärjestelmän käyttämistä Hadoop-ympäristössä. San- tai NAS-verkkoyhteyttä käyttävissä Hadoop-käyttöönotoissa ylimääräinen verkkoviestinnän kuormittaminen voi aiheuttaa suorituskyvyn pullonkauloja erityisesti suuremmissa klustereissa.) Ajattele nyt 1 000 laitteen klusteria, jossa jokaisessa tietokoneessa on kolme sisäistä levyasemaa. Tarkastellaan sen jälkeen klusterin vikaantumisastetta, joka koostuu 3 000 edullisesta asemasta ja 1 000 edullisesta palvelimesta!

Olemme todennäköisesti jo samalla sivulla: Komponentti merkitsee aikaa vioittumiseen (MTTF), joka ilmenee Hadoop-klusterissa. Se on todennäköisesti analoginen postinumeron kanssa sen pilvessä: se epäonnistuu (ja postinumerot näyttävät epäonnistuvan vain silloin, kun todella tarvitset niitä). Hadoopissa on siistiä se, että edullisiin laitteistoihin liittyvien MTTF-nopeuksien todellisuus on itse asiassa hyvin ymmärtää (suunnittelupiste, jos kyllä), ja Hadoopin vahvuuksia on se, että sillä on sisäänrakennettu vikasietoisuus ja vikojen palkitsemisominaisuudet. Tämä on sama asia HDFS:ssä, jossa tiedot on jaettu lohkoihin ja näiden lohkojen kopiot tallennetaan muihin Hadoop-klusterin palvelimiin. Yksittäinen tiedosto siis tallennetaan pienempinä lohkoina, jotka replikoidaan useisiin koko klusterin palvelimiin.

Esimerkki HDFS:stä

Ajattele tiedostoa, joka sisältää kaikkien puhelinnumerot Yhdysvalloissa; Henkilöt, joiden sukunimi alkaa A:lla, saatetaan tallentaa esimerkiksi palvelimeen 1 tai B palvelimeen 2. Hadoop-maailmassa nämä puhelinmuistion osat tallennetaan klusteriin, ja koko puhelinkirjan uudelleenluontiin ohjelma tarvitsee kaikkien klusterin palvelinten lohkoja. HdFS replikoi nämä pienemmät osat oletusarvoisesti kahteen lisäpalvelimeen, koska komponentit epäonnistuvat. (Vikasietoisuutta voidaan lisätä tai vähentää tiedostokohtaisesti tai koko ympäristössä. Esimerkiksi Hadoop-kehitysklusteri ei yleensä tarvitse tietojen vikasietoisuutta.) Tämä vikasietoisuus tarjoaa useita etuja, ja on itsestäänselvintä, että tämä on parempi käytettävyys.

Tämän vikasietoisuuden ansiosta Hadoop-klusteri voi lisäksi hajota pienempiin lohkoihin ja suorittaa niitä kaikissa klusterin palvelimissa skaalattavuuden parantamiseksi. Voit myös hyödyntää tietojen paikallisuutta, joka on keskeisen tärkeää suurten tietojoukkojen kanssa. Kerromme näistä tärkeistä eduista myöhemmin tässä luvussa.

其他信息

Component: Isilon

受影响的产品

Isilon
文章属性
文章编号: 000204613
文章类型: How To
上次修改时间: 09 11月 2022
版本:  2
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。