Co je to HDFS? (Hadoop Distributed File System)

요약: Vysvětlení toho, co je systém souborů HDFS (Hadoop Distributed File System). Tento článek také popisuje, jak se používá systém HDFS, a uvádí příklad.

이 문서는 다음에 적용됩니다. 이 문서는 다음에 적용되지 않습니다. 이 문서는 특정 제품과 관련이 없습니다. 모든 제품 버전이 이 문서에 나와 있는 것은 아닙니다.

지침

Otázka
Co je to soubor HDFS? (Hadoop Distributed File System)

Fakta
Odpověď distribuovaného systému

souborů Hadoop

O systému souborů Hadoop Distributed File System (HDFS)

Chcete-li pochopit, jak je možné škálovat cluster Hadoop® na stovky (a dokonce i tisíce) uzlů, musíte začít pomocí distribuovaného souborového systému Hadoop (HDFS). Data v clusteru HadoopIkona třetí strany jsou rozdělena na menší části (tzv. bloky) a distribuována v celém clusteru. Tímto způsobem lze funkce mapování a omezení provádět na menších podmnožiny větších datových sad, a to poskytuje škálovatelnost potřebnou ke zpracování big data.

Jaký je cíl?

Cílem řešení Hadoop je používat běžně dostupné servery ve velmi velkém clusteru, kde má každý server sadu levných interních disků. Pro vyšší výkon se nástroj MapReduceIkona třetí strany pokouší přiřadit úlohy těmto serverům, kde jsou uložena data, která mají být zpracována. Tato oblast se označuje jako oblast dat. (Důvodem je, že používání sítě SAN (Storage Area Network) nebo úložiště NAS (Network Attached Storage) v prostředí Hadoop se nedoporučuje. V případě nasazení Hadoop pomocí sítě SAN nebo NAS může dodatečné režie síťové komunikace způsobit snížení výkonu, zejména u větších clusterů.) Představte si cluster se 1 000 počítači, kde má každý počítač tři interní disky. Poté vezměte v potaz poruchovost clusteru, který se skládá z 3 000 cenově nenákladných jednotek + 1 000 cenově nenákladných serverů!

Pravděpodobně jsme již na stejné stránce: Komponenta znamená selhání (MTTF), se kterou se setkáte v clusteru Hadoop, je pravděpodobně obdobou zipu na batohu: selže (a zdá se, že zipy selžou, jen když je skutečně potřebujete). Na hadoopu je skvělý fakt, že skutečnost, že sazby MTTF související s levným hardwarem jsou skutečně dobře pochopeny (pokud ano) a součástí síly Hadoop je, že má vestavěnou odolnost vůči chybám a schopnosti kompenzace chyb. To platí pro systém HDFS, protože data jsou rozdělena do bloků a kopie těchto bloků jsou uloženy na jiných serverech v clusteru Hadoop. To znamená, že jednotlivé soubory jsou ve skutečnosti uloženy jako menší bloky, které se replikují na více serverech v celém clusteru.

Příklad systému HDFS

Představte si soubor, který obsahuje telefonní čísla pro všechny ve Spojených státech. osoby s příjmením začínající na A mohou být uloženy na serveru 1, B na serveru 2 atd. Ve světě Hadoop budou kusy tohoto telefonního seznamu uloženy napříč clusterem a k rekonstrukci celého telefonního seznamu bude váš program potřebovat bloky od každého serveru v clusteru. Aby bylo možné dosáhnout dostupnosti v případě selhání komponent, systém HDFS ve výchozím nastavení replikuje tyto menší části na dva další servery. (Tuto redundanci lze zvýšit nebo snížit v jednotlivých souborech nebo v celém prostředí, například vývojový cluster Hadoop obvykle nevyžaduje žádnou redundanci dat.) Tato redundance nabízí více výhod, nejzřejmější je vyšší dostupnost.

Navíc díky této redundanci může cluster Hadoop rozdělit práci na menší části a spouštět tyto úlohy na všech serverech clusteru, aby byla možné jej lépe škálovat. Nakonec získáte výhodu umístění dat, která je zásadní při práci s velkými datovými sadami. Tyto důležité výhody podrobně popisujeme později v této kapitole.

추가 정보

Součást: Isilon

해당 제품

Isilon
문서 속성
문서 번호: 000204613
문서 유형: How To
마지막 수정 시간: 15 12월 2025
버전:  3
다른 Dell 사용자에게 질문에 대한 답변 찾기
지원 서비스
디바이스에 지원 서비스가 적용되는지 확인하십시오.