Co je to HDFS? (Hadoop Distributed File System)

摘要: Vysvětlení toho, co je systém souborů HDFS (Hadoop Distributed File System). Tento článek také popisuje, jak se používá systém HDFS, a uvádí příklad.

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

说明

Otázka
Co je to soubor HDFS? (Hadoop Distributed File System)

Fakta
Odpověď distribuovaného systému

souborů Hadoop

O systému souborů Hadoop Distributed File System (HDFS)

Chcete-li pochopit, jak je možné škálovat cluster Hadoop® na stovky (a dokonce i tisíce) uzlů, musíte začít pomocí distribuovaného souborového systému Hadoop (HDFS). Data v clusteru HadoopIkona třetí strany jsou rozdělena na menší části (tzv. bloky) a distribuována v celém clusteru. Tímto způsobem lze funkce mapování a omezení provádět na menších podmnožiny větších datových sad, a to poskytuje škálovatelnost potřebnou ke zpracování big data.

Jaký je cíl?

Cílem řešení Hadoop je používat běžně dostupné servery ve velmi velkém clusteru, kde má každý server sadu levných interních disků. Pro vyšší výkon se nástroj MapReduceIkona třetí strany pokouší přiřadit úlohy těmto serverům, kde jsou uložena data, která mají být zpracována. Tato oblast se označuje jako oblast dat. (Důvodem je, že používání sítě SAN (Storage Area Network) nebo úložiště NAS (Network Attached Storage) v prostředí Hadoop se nedoporučuje. V případě nasazení Hadoop pomocí sítě SAN nebo NAS může dodatečné režie síťové komunikace způsobit snížení výkonu, zejména u větších clusterů.) Představte si cluster se 1 000 počítači, kde má každý počítač tři interní disky. Poté vezměte v potaz poruchovost clusteru, který se skládá z 3 000 cenově nenákladných jednotek + 1 000 cenově nenákladných serverů!

Pravděpodobně jsme již na stejné stránce: Komponenta znamená selhání (MTTF), se kterou se setkáte v clusteru Hadoop, je pravděpodobně obdobou zipu na batohu: selže (a zdá se, že zipy selžou, jen když je skutečně potřebujete). Na hadoopu je skvělý fakt, že skutečnost, že sazby MTTF související s levným hardwarem jsou skutečně dobře pochopeny (pokud ano) a součástí síly Hadoop je, že má vestavěnou odolnost vůči chybám a schopnosti kompenzace chyb. To platí pro systém HDFS, protože data jsou rozdělena do bloků a kopie těchto bloků jsou uloženy na jiných serverech v clusteru Hadoop. To znamená, že jednotlivé soubory jsou ve skutečnosti uloženy jako menší bloky, které se replikují na více serverech v celém clusteru.

Příklad systému HDFS

Představte si soubor, který obsahuje telefonní čísla pro všechny ve Spojených státech. osoby s příjmením začínající na A mohou být uloženy na serveru 1, B na serveru 2 atd. Ve světě Hadoop budou kusy tohoto telefonního seznamu uloženy napříč clusterem a k rekonstrukci celého telefonního seznamu bude váš program potřebovat bloky od každého serveru v clusteru. Aby bylo možné dosáhnout dostupnosti v případě selhání komponent, systém HDFS ve výchozím nastavení replikuje tyto menší části na dva další servery. (Tuto redundanci lze zvýšit nebo snížit v jednotlivých souborech nebo v celém prostředí, například vývojový cluster Hadoop obvykle nevyžaduje žádnou redundanci dat.) Tato redundance nabízí více výhod, nejzřejmější je vyšší dostupnost.

Navíc díky této redundanci může cluster Hadoop rozdělit práci na menší části a spouštět tyto úlohy na všech serverech clusteru, aby byla možné jej lépe škálovat. Nakonec získáte výhodu umístění dat, která je zásadní při práci s velkými datovými sadami. Tyto důležité výhody podrobně popisujeme později v této kapitole.

其他信息

Součást: Isilon

受影响的产品

Isilon
文章属性
文章编号: 000204613
文章类型: How To
上次修改时间: 09 11月 2022
版本:  2
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。