Co je to HDFS? (Hadoop Distributed File System)

概要: Vysvětlení toho, co je systém souborů HDFS (Hadoop Distributed File System). Tento článek také popisuje, jak se používá systém HDFS, a uvádí příklad.

この記事は次に適用されます: この記事は次には適用されません: この記事は、特定の製品に関連付けられていません。 すべての製品パージョンがこの記事に記載されているわけではありません。

手順

Otázka
Co je to soubor HDFS? (Hadoop Distributed File System)

Fakta
Odpověď distribuovaného systému

souborů Hadoop

O systému souborů Hadoop Distributed File System (HDFS)

Chcete-li pochopit, jak je možné škálovat cluster Hadoop® na stovky (a dokonce i tisíce) uzlů, musíte začít pomocí distribuovaného souborového systému Hadoop (HDFS). Data v clusteru HadoopIkona třetí strany jsou rozdělena na menší části (tzv. bloky) a distribuována v celém clusteru. Tímto způsobem lze funkce mapování a omezení provádět na menších podmnožiny větších datových sad, a to poskytuje škálovatelnost potřebnou ke zpracování big data.

Jaký je cíl?

Cílem řešení Hadoop je používat běžně dostupné servery ve velmi velkém clusteru, kde má každý server sadu levných interních disků. Pro vyšší výkon se nástroj MapReduceIkona třetí strany pokouší přiřadit úlohy těmto serverům, kde jsou uložena data, která mají být zpracována. Tato oblast se označuje jako oblast dat. (Důvodem je, že používání sítě SAN (Storage Area Network) nebo úložiště NAS (Network Attached Storage) v prostředí Hadoop se nedoporučuje. V případě nasazení Hadoop pomocí sítě SAN nebo NAS může dodatečné režie síťové komunikace způsobit snížení výkonu, zejména u větších clusterů.) Představte si cluster se 1 000 počítači, kde má každý počítač tři interní disky. Poté vezměte v potaz poruchovost clusteru, který se skládá z 3 000 cenově nenákladných jednotek + 1 000 cenově nenákladných serverů!

Pravděpodobně jsme již na stejné stránce: Komponenta znamená selhání (MTTF), se kterou se setkáte v clusteru Hadoop, je pravděpodobně obdobou zipu na batohu: selže (a zdá se, že zipy selžou, jen když je skutečně potřebujete). Na hadoopu je skvělý fakt, že skutečnost, že sazby MTTF související s levným hardwarem jsou skutečně dobře pochopeny (pokud ano) a součástí síly Hadoop je, že má vestavěnou odolnost vůči chybám a schopnosti kompenzace chyb. To platí pro systém HDFS, protože data jsou rozdělena do bloků a kopie těchto bloků jsou uloženy na jiných serverech v clusteru Hadoop. To znamená, že jednotlivé soubory jsou ve skutečnosti uloženy jako menší bloky, které se replikují na více serverech v celém clusteru.

Příklad systému HDFS

Představte si soubor, který obsahuje telefonní čísla pro všechny ve Spojených státech. osoby s příjmením začínající na A mohou být uloženy na serveru 1, B na serveru 2 atd. Ve světě Hadoop budou kusy tohoto telefonního seznamu uloženy napříč clusterem a k rekonstrukci celého telefonního seznamu bude váš program potřebovat bloky od každého serveru v clusteru. Aby bylo možné dosáhnout dostupnosti v případě selhání komponent, systém HDFS ve výchozím nastavení replikuje tyto menší části na dva další servery. (Tuto redundanci lze zvýšit nebo snížit v jednotlivých souborech nebo v celém prostředí, například vývojový cluster Hadoop obvykle nevyžaduje žádnou redundanci dat.) Tato redundance nabízí více výhod, nejzřejmější je vyšší dostupnost.

Navíc díky této redundanci může cluster Hadoop rozdělit práci na menší části a spouštět tyto úlohy na všech serverech clusteru, aby byla možné jej lépe škálovat. Nakonec získáte výhodu umístění dat, která je zásadní při práci s velkými datovými sadami. Tyto důležité výhody podrobně popisujeme později v této kapitole.

その他の情報

Součást: Isilon

対象製品

Isilon
文書のプロパティ
文書番号: 000204613
文書の種類: How To
最終更新: 09 11月 2022
バージョン:  2
質問に対する他のDellユーザーからの回答を見つける
サポート サービス
お使いのデバイスがサポート サービスの対象かどうかを確認してください。