Co je to HDFS? (Hadoop Distributed File System)

摘要: Vysvětlení toho, co je systém souborů HDFS (Hadoop Distributed File System). Tento článek také popisuje, jak se používá systém HDFS, a uvádí příklad.

本文章適用於 本文章不適用於 本文無關於任何特定產品。 本文未識別所有產品版本。

說明

Otázka
Co je to soubor HDFS? (Hadoop Distributed File System)

Fakta
Odpověď distribuovaného systému

souborů Hadoop

O systému souborů Hadoop Distributed File System (HDFS)

Chcete-li pochopit, jak je možné škálovat cluster Hadoop® na stovky (a dokonce i tisíce) uzlů, musíte začít pomocí distribuovaného souborového systému Hadoop (HDFS). Data v clusteru HadoopIkona třetí strany jsou rozdělena na menší části (tzv. bloky) a distribuována v celém clusteru. Tímto způsobem lze funkce mapování a omezení provádět na menších podmnožiny větších datových sad, a to poskytuje škálovatelnost potřebnou ke zpracování big data.

Jaký je cíl?

Cílem řešení Hadoop je používat běžně dostupné servery ve velmi velkém clusteru, kde má každý server sadu levných interních disků. Pro vyšší výkon se nástroj MapReduceIkona třetí strany pokouší přiřadit úlohy těmto serverům, kde jsou uložena data, která mají být zpracována. Tato oblast se označuje jako oblast dat. (Důvodem je, že používání sítě SAN (Storage Area Network) nebo úložiště NAS (Network Attached Storage) v prostředí Hadoop se nedoporučuje. V případě nasazení Hadoop pomocí sítě SAN nebo NAS může dodatečné režie síťové komunikace způsobit snížení výkonu, zejména u větších clusterů.) Představte si cluster se 1 000 počítači, kde má každý počítač tři interní disky. Poté vezměte v potaz poruchovost clusteru, který se skládá z 3 000 cenově nenákladných jednotek + 1 000 cenově nenákladných serverů!

Pravděpodobně jsme již na stejné stránce: Komponenta znamená selhání (MTTF), se kterou se setkáte v clusteru Hadoop, je pravděpodobně obdobou zipu na batohu: selže (a zdá se, že zipy selžou, jen když je skutečně potřebujete). Na hadoopu je skvělý fakt, že skutečnost, že sazby MTTF související s levným hardwarem jsou skutečně dobře pochopeny (pokud ano) a součástí síly Hadoop je, že má vestavěnou odolnost vůči chybám a schopnosti kompenzace chyb. To platí pro systém HDFS, protože data jsou rozdělena do bloků a kopie těchto bloků jsou uloženy na jiných serverech v clusteru Hadoop. To znamená, že jednotlivé soubory jsou ve skutečnosti uloženy jako menší bloky, které se replikují na více serverech v celém clusteru.

Příklad systému HDFS

Představte si soubor, který obsahuje telefonní čísla pro všechny ve Spojených státech. osoby s příjmením začínající na A mohou být uloženy na serveru 1, B na serveru 2 atd. Ve světě Hadoop budou kusy tohoto telefonního seznamu uloženy napříč clusterem a k rekonstrukci celého telefonního seznamu bude váš program potřebovat bloky od každého serveru v clusteru. Aby bylo možné dosáhnout dostupnosti v případě selhání komponent, systém HDFS ve výchozím nastavení replikuje tyto menší části na dva další servery. (Tuto redundanci lze zvýšit nebo snížit v jednotlivých souborech nebo v celém prostředí, například vývojový cluster Hadoop obvykle nevyžaduje žádnou redundanci dat.) Tato redundance nabízí více výhod, nejzřejmější je vyšší dostupnost.

Navíc díky této redundanci může cluster Hadoop rozdělit práci na menší části a spouštět tyto úlohy na všech serverech clusteru, aby byla možné jej lépe škálovat. Nakonec získáte výhodu umístění dat, která je zásadní při práci s velkými datovými sadami. Tyto důležité výhody podrobně popisujeme později v této kapitole.

其他資訊

Součást: Isilon

受影響的產品

Isilon
文章屬性
文章編號: 000204613
文章類型: How To
上次修改時間: 09 11月 2022
版本:  2
向其他 Dell 使用者尋求您問題的答案
支援服務
檢查您的裝置是否在支援服務的涵蓋範圍內。