Що таке HDFS? (Розподілена файлова система Hadoop)

概要: Пояснення того, що таке HDFS (розподілена файлова система Hadoop). У цій статті також описано, як використовується HDFS, і наведено приклад.

この記事は次に適用されます: この記事は次には適用されません: この記事は、特定の製品に関連付けられていません。 すべての製品パージョンがこの記事に記載されているわけではありません。

手順

Питання
Що таке HDFS? (Розподілена файлова система Hadoop)

Факти
Відповідь розподіленої файлової системи

Hadoop

Про розподілену файлову систему Hadoop (HDFS)

Щоб зрозуміти, як можна масштабувати кластер Hadoop до сотень (і навіть тисяч) вузлів, вам слід почати з розподіленої файлової системи Hadoop® (HDFS). Дані в кластері HadoopПіктограма третьої сторони розбиваються на більш дрібні частини (звані блоками) і розподіляються по всьому кластеру. Таким чином, функції відображення та зменшення можуть бути виконані на менших підмножинах ваших більших наборів даних, і це забезпечує масштабованість, необхідну для обробки великих даних.

Яка мета?

Метою Hadoop є використання загальнодоступних серверів у дуже великому кластері, де кожен сервер має набір недорогих внутрішніх дисків. Для підвищення продуктивності MapReduceПіктограма третьої сторони намагається призначити робочі навантаження цим серверам, де зберігаються дані, що обробляються. Це відоме як локальність даних. (Саме через цей принцип використання мережі зберігання даних (SAN) або мережевого сховища (NAS) в середовищі Hadoop не рекомендується. Для розгортання Hadoop з використанням SAN або NAS додаткові накладні витрати на мережевий зв'язок можуть спричинити вузькі місця продуктивності, особливо для великих кластерів.) Тепер знайдіть хвилинку і подумайте про кластер на 1000 машин, де кожна машина має три внутрішні дисководи; Тоді розглянемо рівень відмов кластера, що складається з 3000 недорогих дисків + 1000 недорогих серверів!

Ймовірно, ми вже на тій самій сторінці тут: Компонент середнього часу до відмови (MTTF), який ви зіткнетеся з кластером Hadoop, ймовірно, аналогічний блискавці на куртці вашої дитини: вона вийде з ладу (і досить поетично, блискавки, здається, виходять з ладу лише тоді, коли вони вам дійсно потрібні). Найцікавіше в Hadoop полягає в тому, що реальність ставок MTTF, пов'язаних з недорогим обладнанням, насправді добре зрозуміла (точка дизайну, якщо хочете), і частина сильної сторони Hadoop полягає в тому, що він має вбудовані можливості відмовостійкості та компенсації відмов. Те ж саме стосується HDFS, в якому дані діляться на блоки, а копії цих блоків зберігаються на інших серверах в кластері Hadoop. Тобто окремий файл фактично зберігається у вигляді менших блоків, які реплікуються на декількох серверах у всьому кластері.

Приклад HDFS

Подумайте про файл, який містить номери телефонів для всіх у Сполучених Штатах; люди з прізвищем, що починається на A, можуть зберігатися на сервері 1, B на сервері 2 тощо. У світі Hadoop фрагменти цієї телефонної книги будуть зберігатися по всьому кластеру, і для реконструкції всієї телефонної книги вашій програмі знадобляться блоки з кожного сервера в кластері. Щоб досягти доступності, коли компоненти виходять з ладу, HDFS за замовчуванням реплікує ці менші частини на двох додаткових серверах. (Ця надмірність може бути збільшена або зменшена на основі кожного файлу або для всього середовища; наприклад, кластер розробки Hadoop зазвичай не потребує надмірності даних.) Ця надмірність пропонує численні переваги, найбільш очевидною з яких є вища доступність.

Крім того, це надмірність дозволяє кластеру Hadoop розбивати роботу на менші шматки та запускати ці завдання на всіх серверах кластера для кращої масштабованості. Нарешті, ви отримуєте перевагу локальності даних, що критично важливо при роботі з великими масивами даних. Ми детально розглянемо ці важливі переваги далі в цьому розділі.

その他の情報

Компонент: Ісілон

対象製品

Isilon
文書のプロパティ
文書番号: 000204613
文書の種類: How To
最終更新: 09 11月 2022
バージョン:  2
質問に対する他のDellユーザーからの回答を見つける
サポート サービス
お使いのデバイスがサポート サービスの対象かどうかを確認してください。