Wat is HDFS? (Hadoop Distributed File System)

摘要: Uitleg over wat het HDFS (Hadoop Distributed File System) is. Dit artikel beschrijft ook hoe HDFS wordt gebruikt en biedt een voorbeeld.

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

说明

Vraag
Wat is hdfs? (Hadoop Distributed File System)

Feiten
Hadoop Distributed File System

Antwoord

Over Hadoop Distributed File System (HDFS)

Om te begrijpen hoe het mogelijk is om een Hadoop® cluster te schalen naar honderden (en zelfs duizenden) knooppunten, moet u beginnen met het Hadoop Distributed File System (HDFS). Data in een HadoopPictogram van derden cluster worden onderverdeeld in kleinere stukken (blokken genoemd) en verspreid over het cluster. Op deze manier kunnen de functies voor het toewijzen en verminderen worden uitgevoerd op kleinere subsets van uw grotere datasets, en dit biedt de schaalbaarheid die nodig is voor big data-verwerking.

Wat is het doel?

Het doel van Hadoop is om veelgebruikte servers in een zeer groot cluster te gebruiken, waar elke server een set goedkope interne schijfstations heeft. Voor betere prestaties probeert MapReducePictogram van derden workloads toe te wijzen aan deze servers waar de te verwerken data worden opgeslagen. Dit staat bekend als datalocatie. (Vanwege dit principe wordt het gebruik van een STORAGE Area Network (SAN) of Network Attached Storage (NAS) in een Hadoop-omgeving niet aanbevolen. Voor Hadoop-implementaties met een SAN of NAS kan de extra overhead voor netwerkcommunicatie prestatieknelpunten veroorzaken, met name voor grotere clusters.) Neem nu een moment en denk aan een cluster met 1000 machines, waar elke machine drie interne schijfstations heeft; bekijk dan het uitvalpercentage van een cluster dat bestaat uit 3000 goedkope schijven + 1000 goedkope servers!

We zijn waarschijnlijk al op dezelfde pagina: Het onderdeel betekent time-to-failure (MTTF) die u in een Hadoop cluster zult ervaren, is waarschijnlijk vergelijkbaar met een rits op de mantel van uw kind: het zal mislukken (en lang genoeg lijken ritsen alleen te mislukken als u ze echt nodig hebt). Het mooie van Hadoop is dat de realiteit van de MTTF-snelheden in verband met goedkope hardware eigenlijk goed wordt begrepen (als u dat wilt), en een deel van de kracht van Hadoop is dat het ingebouwde fouttolerantie en foutcompensatiemogelijkheden heeft. Dit is hetzelfde voor HDFS, omdat data zijn verdeeld in blokken en kopieën van deze blokken worden opgeslagen op andere servers in het Hadoop cluster. Dat wil betekent dat een individueel bestand in feite wordt opgeslagen als kleinere blokken die worden gerepliceerd op meerdere servers in het hele cluster.

Een voorbeeld van HDFS

Denk aan een bestand met de telefoonnummers voor iedereen in de Verenigde Staten; de personen met een achternaam die beginnen met A, kunnen worden opgeslagen op server 1, B op server 2, enzovoort. In een Hadoop-wereld zouden delen van dit telefoonboek worden opgeslagen in het hele cluster en om het hele telefoonboek te reconstrueren, heeft uw programma de blokken van elke server in het cluster nodig. Om beschikbaarheid te bereiken als onderdelen mislukken, repliceert HDFS deze kleinere onderdelen standaard op twee extra servers. (Deze redundantie kan per bestand of voor een hele omgeving worden verhoogd of verlaagd; een Ontwikkelings-Hadoop cluster heeft meestal geen dataredundantie nodig.) Deze redundantie biedt meerdere voordelen, de meest voor de hand liggende is hogere beschikbaarheid.

Bovendien kan het Hadoop cluster dankzij deze redundantie opsplitsen in kleinere chunks en deze taken uitvoeren op alle servers in het cluster voor betere schaalbaarheid. Tot slot profiteert u van de datalocatie, die van cruciaal belang is bij het werken met grote datasets. We geven later in dit hoofdstuk meer informatie over deze belangrijke voordelen.

其他信息

Component: Isilon

受影响的产品

Isilon
文章属性
文章编号: 000204613
文章类型: How To
上次修改时间: 09 11月 2022
版本:  2
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。