O que é HDFS? (Hadoop Distributed File System)

Summary: Explicação do que é o HDFS (Hadoop Distributed File System). Este artigo também descreve como o HDFS é usado e fornece um exemplo.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Pergunta
O que é o HDFS? (Hadoop Distributed File System)

Fatos
Resposta do sistema dearquivos distribuído

do Hadoop

Sobre o Hadoop Distributed File System (HDFS)

Para entender como é possível dimensionar um cluster do Hadoop® para centenas (e até mesmo milhares) de nós, você precisa começar com o Hadoop Distributed File System (HDFS). Os dados em um cluster do HadoopÍcone de terceiros são divididos em partes menores (chamadas de blocos) e distribuídos por todo o cluster. Dessa forma, as funções de mapeamento e redução podem ser executadas em subconjuntos menores de seus conjuntos de dados maiores, e isso fornece a escalabilidade necessária para o processamento de Big Data.

Qual é o objetivo?

O objetivo do Hadoop é usar servidores comumente disponíveis em um cluster muito grande, onde cada servidor tem um conjunto de unidades de disco internas de baixo custo. Para obter maior desempenho, o MapReduceÍcone de terceiros tenta atribuir cargas de trabalho a esses servidores onde os dados a serem processados são armazenados. Isso é conhecido como localidade dos dados. (É por causa desse princípio que o uso de uma SAN (Storage Area Network, rede de área de armazenamento) ou de armazenamento de conexão com a rede (NAS) em um ambiente Hadoop não é recomendado. Para implementações do Hadoop usando UMA SAN ou NAS, a sobrecarga extra de comunicação de rede pode causar gargalos de desempenho, especialmente para clusters maiores.) Agora, pense em um cluster de 1.000 máquinas, em que cada máquina tem três unidades de disco internas. em seguida, considere a taxa de falha de um cluster composto por 3.000 unidades de baixo custo + 1.000 servidores de baixo custo!

Provavelmente, já estamos na mesma página aqui: O MTTF (Mean Time to Failure, tempo médio de falha) do componente que você experimentará em um cluster do Hadoop provavelmente é análogo a um zíper na jaqueta do seu filho: ele falhará (e, na verdade, os zíperes parecem falhar apenas quando você realmente precisar). O interessante sobre o Hadoop é que a realidade das taxas de MTTF associadas ao hardware barato é realmente bem compreendida (um ponto de projeto, se você quiser), e parte da força do Hadoop é que ele tem tolerância a falhas integrada e recursos de compensação de falhas. Isso é o mesmo para o HDFS, já que os dados são divididos em blocks, e as cópias desses blocks são armazenadas em outros servidores no cluster do Hadoop. Ou seja, um arquivo individual é armazenado como blocks menores que são replicados em vários servidores em todo o cluster.

Um exemplo de HDFS

Pense em um arquivo que contém os números de telefone para todos os usuários nos Estados Unidos; as pessoas com um sobrenome começando com A podem ser armazenadas no servidor 1, B no servidor 2 e assim por diante. Em um mundo hadoop, partes dessa lista telefônica seriam armazenadas em todo o cluster e, para reconstruir toda a lista telefônica, seu programa precisaria dos blocos de todos os servidores do cluster. Para obter disponibilidade à medida que os componentes falham, o HDFS replica essas partes menores em dois servidores adicionais por padrão. (Essa redundância pode ser aumentada ou reduzida por arquivo ou para um ambiente inteiro; por exemplo, um cluster hadoop de desenvolvimento normalmente não precisa de redundância de dados.) Essa redundância oferece vários benefícios, o mais óbvio é a maior disponibilidade.

Além disso, essa redundância permite que o cluster do Hadoop divida o trabalho em fragmentos menores e execute esses trabalhos em todos os servidores do cluster para melhorar a escalabilidade. Por fim, você obtém o benefício da localidade dos dados, que é essencial ao trabalhar com grandes conjuntos de dados. Detalhamos esses benefícios importantes posteriormente neste capítulo.

Additional Information

Componente: Isilon

Affected Products

Isilon
Article Properties
Article Number: 000204613
Article Type: How To
Last Modified: 09 Nov 2022
Version:  2
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.