HDFS nedir? (Hadoop Dağıtılmış Dosya Sistemi)
Summary: HDFS'nin (Hadoop Dağıtılmış Dosya Sistemi) ne olduğunu açıklama. Bu makalede HDFS'nin nasıl kullanıldıkları da ve bir örnek verilmiştir.
Instructions
HDFS nedir? (Hadoop Dağıtılmış Dosya Sistemi)
Gerçekler
Hadoop Dağıtılmış Dosya Sistemi
Yanıtı
Hadoop Dağıtılmış Dosya Sistemi (HDFS) Hakkında
Bir Hadoop® kümesini yüzlerce (hatta binlerce) düğüme ölçeklendirmenin nasıl mümkün olduğunu anlamak için Hadoop Dağıtılmış Dosya Sistemi (HDFS) ile başlatmanız gerekir. Hadoop kümesinde bulunan
veriler daha küçük parçalara (bloklar olarak adlandırılan) bölünür ve küme genelinde dağıtılır. Bu şekilde, eşleme ve azaltma işlevleri daha büyük veri kümenizin daha küçük alt kümeleri üzerinde yürütülebilme olanağı sunar ve bu, büyük veri işleme için gereken ölçeklenebilirliği sağlar.
Amaç nedir?
Hadoop'un amacı, her sunucunun ucuz dahili disk sürücüleri kümesine sahip olduğu çok büyük bir kümede yaygın olarak bulunan sunucuları kullanmaktır. Daha yüksek performans için MapReduce
, işlenecek verilerin depolandığı bu sunuculara iş yükleri atamaya çalışır. Bu, veri yereli olarak bilinir. (Bu ilke nedeniyle, Bir Hadoop ortamında bir depolama alanı ağı (SAN) veya ağa bağlı depolama (NAS) kullanılması önerilmez. SAN veya NAS kullanan Hadoop dağıtımlarında ek ağ iletişimi ek yükü, özellikle daha büyük kümeler için performans darboğazına neden olabilir.) Şimdi bir dakikanızı alın ve her makinenin üç dahili disk sürücüsüne sahip olduğu 1000 makineli bir kümeyi düşün; ardından 3000 ucuz sürücü + 1000 ucuz sunucudan oluşan bir kümenin arıza oranını düşünün!
Muhtemelen burada zaten aynı sayfada yer alasiyoruz: Bileşen, Hadoop kümesinde karşılaşacakları başarısız olma (MTTF) süresinin muhtemelen kızağındaki bir fermuarla benzer olduğu anlamına gelir: Arızalı olacaktır (ve yeterince irdeleyici bir şekilde, fermuarlar yalnızca ihtiyacınız olduğunda başarısız oluyor gibi görünüyor). Hadoop'un en hoş yanı, ucuz donanımla ilişkili MTTF hızlarının gerçekliği aslında iyi anlaşılmış (isterseniz bir tasarım noktası) ve Hadoop'un gücünün bir parçası da yerleşik hata toleransı ve hata telafisi özelliklerine sahip olduğudur. Bu, HDFS için aynıdır. Bu veriler bloklara ayrılmıştır ve bu blokların kopyaları Hadoop kümesindeki diğer sunucularda depolanır. Diğer bir ifadeyle, bir dosya aslında tüm kümedeki birden çok sunucuya çoğaltılan daha küçük bloklar olarak depolanır.
HDFS örneği
Amerika Birleşik Devletleri'nde herkesin telefon numaralarını içeren bir dosya düşün; A ile başlayan soyadı olan kişiler sunucu 1'de, B'de sunucu 2'de vb. saklanabilir. Hadoop dünyasında, bu telefon rehberi parçalarının kümede depolandığı ve tüm telefon rehberini yeniden oluşturmak için programda kümenin tüm sunucularından gelen blokların olması gerekir. Bileşenlerin arızalanmasıyla kullanılabilirliği sağlamak için HDFS, bu küçük parçaları varsayılan olarak iki ek sunucuya çoğaltır. (Bu yedeklilik, dosya bazında veya tüm bir ortam için artırılmış veya azaltılmış olabilir; örneğin, bir geliştirme Hadoop kümesinde genellikle veri yedekliliği gerekli değildir.) Bu yedeklilik, en belirgini daha yüksek kullanılabilirlik olmak üzere birden fazla avantaj sunar.
Ayrıca bu yedeklilik, Hadoop kümesine daha küçük parçalara ayrılmalarını ve daha iyi ölçeklenebilirlik için bu işleri kümedeki tüm sunucularda çalıştırmalarını sağlar. Son olarak, büyük veri setleri ile çalışırken kritik öneme sahip olan veri yerellik avantajından yararlanabileceksiniz. Bu önemli avantajları bu bölümde ayrıntılı olarak açıklarız.