HDFS nedir? (Hadoop Dağıtılmış Dosya Sistemi)

Summary: HDFS'nin (Hadoop Dağıtılmış Dosya Sistemi) ne olduğunu açıklama. Bu makalede HDFS'nin nasıl kullanıldıkları da ve bir örnek verilmiştir.

Bu makale şunlar için geçerlidir: Bu makale şunlar için geçerli değildir: Bu makale, belirli bir ürüne bağlı değildir. Bu makalede tüm ürün sürümleri tanımlanmamıştır.

Instructions

Soru
HDFS nedir? (Hadoop Dağıtılmış Dosya Sistemi)

Gerçekler
Hadoop Dağıtılmış Dosya Sistemi

Yanıtı

Hadoop Dağıtılmış Dosya Sistemi (HDFS) Hakkında

Bir Hadoop® kümesini yüzlerce (hatta binlerce) düğüme ölçeklendirmenin nasıl mümkün olduğunu anlamak için Hadoop Dağıtılmış Dosya Sistemi (HDFS) ile başlatmanız gerekir. Hadoop kümesinde bulunanÜçüncü taraf simgesi veriler daha küçük parçalara (bloklar olarak adlandırılan) bölünür ve küme genelinde dağıtılır. Bu şekilde, eşleme ve azaltma işlevleri daha büyük veri kümenizin daha küçük alt kümeleri üzerinde yürütülebilme olanağı sunar ve bu, büyük veri işleme için gereken ölçeklenebilirliği sağlar.

Amaç nedir?

Hadoop'un amacı, her sunucunun ucuz dahili disk sürücüleri kümesine sahip olduğu çok büyük bir kümede yaygın olarak bulunan sunucuları kullanmaktır. Daha yüksek performans için MapReduceÜçüncü taraf simgesi, işlenecek verilerin depolandığı bu sunuculara iş yükleri atamaya çalışır. Bu, veri yereli olarak bilinir. (Bu ilke nedeniyle, Bir Hadoop ortamında bir depolama alanı ağı (SAN) veya ağa bağlı depolama (NAS) kullanılması önerilmez. SAN veya NAS kullanan Hadoop dağıtımlarında ek ağ iletişimi ek yükü, özellikle daha büyük kümeler için performans darboğazına neden olabilir.) Şimdi bir dakikanızı alın ve her makinenin üç dahili disk sürücüsüne sahip olduğu 1000 makineli bir kümeyi düşün; ardından 3000 ucuz sürücü + 1000 ucuz sunucudan oluşan bir kümenin arıza oranını düşünün!

Muhtemelen burada zaten aynı sayfada yer alasiyoruz: Bileşen, Hadoop kümesinde karşılaşacakları başarısız olma (MTTF) süresinin muhtemelen kızağındaki bir fermuarla benzer olduğu anlamına gelir: Arızalı olacaktır (ve yeterince irdeleyici bir şekilde, fermuarlar yalnızca ihtiyacınız olduğunda başarısız oluyor gibi görünüyor). Hadoop'un en hoş yanı, ucuz donanımla ilişkili MTTF hızlarının gerçekliği aslında iyi anlaşılmış (isterseniz bir tasarım noktası) ve Hadoop'un gücünün bir parçası da yerleşik hata toleransı ve hata telafisi özelliklerine sahip olduğudur. Bu, HDFS için aynıdır. Bu veriler bloklara ayrılmıştır ve bu blokların kopyaları Hadoop kümesindeki diğer sunucularda depolanır. Diğer bir ifadeyle, bir dosya aslında tüm kümedeki birden çok sunucuya çoğaltılan daha küçük bloklar olarak depolanır.

HDFS örneği

Amerika Birleşik Devletleri'nde herkesin telefon numaralarını içeren bir dosya düşün; A ile başlayan soyadı olan kişiler sunucu 1'de, B'de sunucu 2'de vb. saklanabilir. Hadoop dünyasında, bu telefon rehberi parçalarının kümede depolandığı ve tüm telefon rehberini yeniden oluşturmak için programda kümenin tüm sunucularından gelen blokların olması gerekir. Bileşenlerin arızalanmasıyla kullanılabilirliği sağlamak için HDFS, bu küçük parçaları varsayılan olarak iki ek sunucuya çoğaltır. (Bu yedeklilik, dosya bazında veya tüm bir ortam için artırılmış veya azaltılmış olabilir; örneğin, bir geliştirme Hadoop kümesinde genellikle veri yedekliliği gerekli değildir.) Bu yedeklilik, en belirgini daha yüksek kullanılabilirlik olmak üzere birden fazla avantaj sunar.

Ayrıca bu yedeklilik, Hadoop kümesine daha küçük parçalara ayrılmalarını ve daha iyi ölçeklenebilirlik için bu işleri kümedeki tüm sunucularda çalıştırmalarını sağlar. Son olarak, büyük veri setleri ile çalışırken kritik öneme sahip olan veri yerellik avantajından yararlanabileceksiniz. Bu önemli avantajları bu bölümde ayrıntılı olarak açıklarız.

Additional Information

Bileşen: Isilon

Etkilenen Ürünler

Isilon
Makale Özellikleri
Article Number: 000204613
Article Type: How To
Son Değiştirme: 09 Kas 2022
Version:  2
Sorularınıza diğer Dell kullanıcılarından yanıtlar bulun
Destek Hizmetleri
Aygıtınızın Destek Hizmetleri kapsamında olup olmadığını kontrol edin.