Что такое HDFS? (Распределенная файловая система Hadoop)

摘要: Объяснение того, что представляет собой РАСПРЕДЕЛЕННАЯ файловая система HDFS (Hadoop Distributed File System). В этой статье также описывается использование HDFS и приводится пример.

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

说明

Вопрос
Что такое HDFS? (Распределенная файловая система Hadoop)

Факты
Ответ распределенной файловойсистемы

Hadoop

О распределенной файловой системе Hadoop (HDFS)

Чтобы понять, как можно масштабировать кластер Hadoop® до сотен (и даже тысяч) узлов, необходимо начать с Hadoop Distributed File System (HDFS). Данные в кластере HadoopЗначок стороннего производителя разбиваются на более мелкие части (называемые блоками) и распределяются по кластеру. Таким образом, сопоставление и сокращение функций можно выполнять в подмножеах более крупных наборов данных, что обеспечивает масштабируемость, необходимую для обработки больших данных.

Какова цель?

Цель Hadoop — использовать часто доступные серверы в очень большом кластере, где каждый сервер имеет набор недорогих внутренних дисковых накопителей. Для повышения производительности MapReduceЗначок стороннего производителя пытается назначить рабочие нагрузки этим серверам, где хранятся обрабатываемые данные. Это называется локальность данных. (Из-за этого принципа использование сети хранения данных (SAN) или сетевой системы хранения данных (NAS) в среде Hadoop не рекомендуется. В развертываниях Hadoop с использованием SAN или NAS дополнительные издержки на сетевые подключения могут привести к узким местам в производительности, особенно для более крупных кластеров.) Теперь рассмотрим кластер на 1000 машин, в котором каждая машина имеет три внутренних дисковых накопителя. а затем рассмотрим частоту отказов кластера, состоящего из 3000 недорогих накопителей + 1000 недорогих серверов!

Скорее всего, мы уже на той же странице: Среднее время сбоя компонента (MTTF), с которым вы собираетесь перейти в кластер Hadoop, скорее всего, аналогичен молнии на вашей локальной инфраструктуре: он завершается сбоем (и достаточно рычажки кажутся неудачными, только когда они действительно нужны). Лучше всего Hadoop: действительность тарифов MTTF, связанных с недорогим оборудованием, хорошо понятна (например, на этапе проектирования), а эффективность Hadoop относялась к встроенным возможностям по отказоустойчивости и компенсации за отказоустойчивость. Это то же самое для HDFS: данные разделены на блоки, а копии этих блоков хранятся на других серверах в кластере Hadoop. То есть отдельный файл фактически хранится как блоки меньшего размера, которые реплицируются на несколько серверов во всем кластере.

Пример HDFS

Представьте файл, содержащий номера телефонов для всех сотрудников в США. люди с фамилией, начиная с A, могут храниться на сервере 1, B на сервере 2 и т. д. В мире Hadoop фрагменты этой телефонной книги будут храниться в кластере, и для реконструкции всей телефонной книги вашей программе требуются блоки от каждого сервера в кластере. Чтобы обеспечить доступность по мере сбоя компонентов, HDFS реплицирует эти небольшие части на два дополнительных сервера по умолчанию. (Это резервирование можно увеличить или уменьшить для каждого файла или для всей среды. Например, для разработки кластера Hadoop резервирование данных обычно не требуется.) Такое резервирование обеспечивает множество преимуществ, наиболее очевидным из них — повышение доступности.

Кроме того, такая избыточность позволяет кластеру Hadoop разбить работу на более мелкие фрагменты и выполнять эти задачи на всех серверах в кластере для повышения масштабируемости. Наконец, вы получаете преимущество локальности данных, которая критически важна при работе с большими наборами данных. Далее в этой главе мы подробно рассмотрим эти важные преимущества.

其他信息

Компонент: Isilon

受影响的产品

Isilon
文章属性
文章编号: 000204613
文章类型: How To
上次修改时间: 09 11月 2022
版本:  2
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。