Hvad er HDFS? (Hadoop Distributed File System)

摘要: Forklaring af, hvad HDFS (Hadoop Distributed File System) er. Denne artikel beskriver også, hvordan HDFS anvendes og giver et eksempel.

本文章適用於 本文章不適用於 本文無關於任何特定產品。 本文未識別所有產品版本。

說明

Spørgsmål
Hvad er HDFS? (Hadoop Distributed File System)

Fakta
Svar på Hadoop Distributed File System

Om Hadoop Distributed File System (HDFS)

For at forstå, hvordan det er muligt at skalere en Hadoop-klynge® til hundredvis (og endda tusindvis) af noder, skal du starte med Hadoop Distributed File System (HDFS). Data i en Hadoop-klyngeTredjepartsikon opdeles i mindre dele (kaldet blokke) og fordeles i hele klyngen. På denne måde kan kort- og reduktionsfunktioner udføres på mindre undersæt af dine større datasæt, og dette giver den skalerbarhed, der er nødvendig til big data-behandling.

Hvad er målet?

Målet med Hadoop er at bruge almindeligt tilgængelige servere i en meget stor klynge, hvor hver server har et sæt billige interne diskdrev. For at opnå højere ydeevne forsøger MapReduceTredjepartsikon at tildele workloads til disse servere, hvor de data, der skal behandles, gemmes. Dette kaldes datalokalitet. (Det skyldes dette princip, at brug af et SAN (Storage Area Network) eller NAS (Network Attached Storage) i et Hadoop-miljø ikke anbefales. Ved Hadoop-implementeringer ved hjælp af et SAN eller NAS kan de ekstra netværkskommunikationsomkostninger forårsage flaskehalse i ydeevnen, især for større klynger.) Tag nu et øjeblik og tænk på en klynge med 1000 maskiner, hvor hver maskine har tre interne diskdrev; så overvej fejlfrekvensen for en klynge bestående af 3000 billige drev + 1000 billige servere!

Vi er sandsynligvis allerede på samme side her: Komponenten betyder tid til fejl (MTTF), som du vil opleve i en Hadoop-klynge, er sandsynligvis analog med en zipper på din skoles tagterenhed: Den vil mislykkes (og tilfældigt nok ser det ud til, at zippers kun mislykkes, når du virkelig har brug for dem). Det smarte ved Hadoop er, at virkeligheden i MTTF-priser, der er forbundet med billig hardware, faktisk forstås korrekt (et designpunkt, hvis du vil), og en del af styrken ved Hadoop er, at den har indbygget fejltolerance og fejlkompensationsfunktioner. Dette er det samme for HDFS, da data opdeles i blokke, og kopier af disse blokke gemmes på andre servere i Hadoop-klyngen. En individuel fil gemmes faktisk som mindre blokke, der replikeres på tværs af flere servere i hele klyngen.

Et eksempel på HDFS

Tænk på en fil, der indeholder telefonnumre for alle i USA; Personer med et efternavn, der starter med A, kan være gemt på server 1, B på server 2 osv. I en Hadoop-verden gemmes dele af denne telefonbog i hele klyngen, og for at rekonstruere hele telefonbogen skal dit program bruge blokkene fra alle servere i klyngen. For at opnå tilgængelighed, når komponenter svigter, replikerer HDFS som standard disse mindre enheder til to ekstra servere. (Denne redundans kan øges eller reduceres pr. fil eller for et helt miljø. F.eks. behøver en Development Hadoop-klynge typisk ingen dataredundans.) Denne redundans giver flere fordele, det mest oplagte er højere tilgængelighed.

Derudover giver denne redundans Hadoop-klyngen mulighed for at opdele arbejdet i mindre dele og køre disse job på alle serverne i klyngen for bedre skalerbarhed. Endelig får du fordelen ved datalokalitet, som er afgørende, når du arbejder med store datasæt. Vi beskriver disse vigtige fordele senere i dette kapitel.

其他資訊

Komponent: Isilon

受影響的產品

Isilon
文章屬性
文章編號: 000204613
文章類型: How To
上次修改時間: 09 11月 2022
版本:  2
向其他 Dell 使用者尋求您問題的答案
支援服務
檢查您的裝置是否在支援服務的涵蓋範圍內。