Hvad er HDFS? (Hadoop Distributed File System)

概要: Forklaring af, hvad HDFS (Hadoop Distributed File System) er. Denne artikel beskriver også, hvordan HDFS anvendes og giver et eksempel.

この記事は次に適用されます: この記事は次には適用されません: この記事は、特定の製品に関連付けられていません。 すべての製品パージョンがこの記事に記載されているわけではありません。

手順

Spørgsmål
Hvad er HDFS? (Hadoop Distributed File System)

Fakta
Svar på Hadoop Distributed File System

Om Hadoop Distributed File System (HDFS)

For at forstå, hvordan det er muligt at skalere en Hadoop-klynge® til hundredvis (og endda tusindvis) af noder, skal du starte med Hadoop Distributed File System (HDFS). Data i en Hadoop-klyngeTredjepartsikon opdeles i mindre dele (kaldet blokke) og fordeles i hele klyngen. På denne måde kan kort- og reduktionsfunktioner udføres på mindre undersæt af dine større datasæt, og dette giver den skalerbarhed, der er nødvendig til big data-behandling.

Hvad er målet?

Målet med Hadoop er at bruge almindeligt tilgængelige servere i en meget stor klynge, hvor hver server har et sæt billige interne diskdrev. For at opnå højere ydeevne forsøger MapReduceTredjepartsikon at tildele workloads til disse servere, hvor de data, der skal behandles, gemmes. Dette kaldes datalokalitet. (Det skyldes dette princip, at brug af et SAN (Storage Area Network) eller NAS (Network Attached Storage) i et Hadoop-miljø ikke anbefales. Ved Hadoop-implementeringer ved hjælp af et SAN eller NAS kan de ekstra netværkskommunikationsomkostninger forårsage flaskehalse i ydeevnen, især for større klynger.) Tag nu et øjeblik og tænk på en klynge med 1000 maskiner, hvor hver maskine har tre interne diskdrev; så overvej fejlfrekvensen for en klynge bestående af 3000 billige drev + 1000 billige servere!

Vi er sandsynligvis allerede på samme side her: Komponenten betyder tid til fejl (MTTF), som du vil opleve i en Hadoop-klynge, er sandsynligvis analog med en zipper på din skoles tagterenhed: Den vil mislykkes (og tilfældigt nok ser det ud til, at zippers kun mislykkes, når du virkelig har brug for dem). Det smarte ved Hadoop er, at virkeligheden i MTTF-priser, der er forbundet med billig hardware, faktisk forstås korrekt (et designpunkt, hvis du vil), og en del af styrken ved Hadoop er, at den har indbygget fejltolerance og fejlkompensationsfunktioner. Dette er det samme for HDFS, da data opdeles i blokke, og kopier af disse blokke gemmes på andre servere i Hadoop-klyngen. En individuel fil gemmes faktisk som mindre blokke, der replikeres på tværs af flere servere i hele klyngen.

Et eksempel på HDFS

Tænk på en fil, der indeholder telefonnumre for alle i USA; Personer med et efternavn, der starter med A, kan være gemt på server 1, B på server 2 osv. I en Hadoop-verden gemmes dele af denne telefonbog i hele klyngen, og for at rekonstruere hele telefonbogen skal dit program bruge blokkene fra alle servere i klyngen. For at opnå tilgængelighed, når komponenter svigter, replikerer HDFS som standard disse mindre enheder til to ekstra servere. (Denne redundans kan øges eller reduceres pr. fil eller for et helt miljø. F.eks. behøver en Development Hadoop-klynge typisk ingen dataredundans.) Denne redundans giver flere fordele, det mest oplagte er højere tilgængelighed.

Derudover giver denne redundans Hadoop-klyngen mulighed for at opdele arbejdet i mindre dele og køre disse job på alle serverne i klyngen for bedre skalerbarhed. Endelig får du fordelen ved datalokalitet, som er afgørende, når du arbejder med store datasæt. Vi beskriver disse vigtige fordele senere i dette kapitel.

その他の情報

Komponent: Isilon

対象製品

Isilon
文書のプロパティ
文書番号: 000204613
文書の種類: How To
最終更新: 09 11月 2022
バージョン:  2
質問に対する他のDellユーザーからの回答を見つける
サポート サービス
お使いのデバイスがサポート サービスの対象かどうかを確認してください。