Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

Hadoop'u PowerScale'e Yedekleme

Summary: Bu makalede, Isilon olmayan Hadoop ortamlarının bir Isilon kümesine yedeklenmesine ilişkin olarak önerilen en iyi uygulamalar açıklanmaktadır.

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Instructions

NOT: Bu konu, OneFS Bilgi Merkezi ile Hadoop'u Kullanma'nın bir parçasıdır.


DistCp'yi Kullanarak Hadoop'u Yedeklemeye Yönelik En İyi Uygulamalar

Bu makalede, PowerScale olmayan Hadoop ortamlarının Dell PowerScale kümesine yedeklenmesine ilişkin olarak önerilen en iyi uygulamalar açıklanmaktadır. Dell PowerScale, %80'den fazla depolama verimliliği sağlayan güçlü silme kodlaması veri korumasıyla, Hadoop kümesinde yer alan veriler için ideal bir yedekleme hedefidir. DistCp (dağıtılmış kopya), tüm Hadoop dağıtımları ve sürümleriyle birlikte gelen standart bir araçtır. DistCp, bir Hadoop dizininin tamamını kopyalayabilir. DistCp, dosyaları paralel olarak kopyalamak için MapReduce işi olarak çalışır ve gerekirse sisteminizi tam kapasitede kullanır. Ayrıca diğer görevler üzerindeki etkiyi kontrol etmek için bant genişliğini sınırlama seçeneği de mevcuttur.

ORTAM
Bu makalede aşağıdaki test ortamı kullanılır:

  • Pivotal Control Center 2.0 kullanılarak kurulan Pivotal HD (PHD) 2.0.1, tüm ayarlarda varsayılan değerler kullanılır. Özellikle, geleneksel DAS yapılandırması için PHD düğümlerine HDFS kurulur.
  • PowerScale OneFS 7.2.0

DistCp standart bir Hadoop aracı olduğundan, bu belgede özetlenen yaklaşım, diğer tüm Hadoop dağıtımları ve sürümleri için olmasa bile çoğu için geçerlidir.

Bu belgeyi okurken yedekleme verilerinin /mydata dizinindeki PHD Hadoop HDFS kümesinde yer aldığını varsayın. Örnekler, bu verileri /ifs/hadoop/backup/mydata dizinindeki PowerScale kümesine yedekler.

Isilon'a Hadoop Kümesi Yedekleme
Şekil 1: Isilon'a Hadoop Kümesi Yedekleme


YEDEKLEME YÖNTEMLERİ:

EN BASİT YEDEKLEME YÖNTEMİ

En basit yedekleme komutu aşağıda gösterilmiştir:

[gpadmin@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update /mydata hdfs://all-nc-s-hdfs/backup/mydata

Yukarıdaki komutu, Hadoop istemcisi (hadoop) yüklü olan herhangi bir ana bilgisayarda çalıştırabilirsiniz. Komutu çalıştıran kullanıcının, kaynak dosyaları okuma ve hedef dosyaları yazma izinleri olması gerekir.

PowerScale kümesine yerleştirilen hedef dosyalarda CRC denetimi yapılmasını önlemek için -skipcrccheck ve -update seçenekleri belirtilmelidir. PowerScale, Hadoop CRC'yi depolamaz ve hesaplanması çok pahalı olur. Dolayısıyla, CRC denetimiyle ilgili hataları önlemek için bu seçenekler gereklidir.

Sonraki parametre olan "/mydata", kaynak Hadoop kümesindeki kaynak yoludur. Tüm HDFS ad alanınızı yedeklemek için "/" de kullanabilirsiniz. Yol tam olarak uygun olmadığından core-site.xml dosyasının fs.defaultFS parametresinde belirtilen HDFS NameNode'u kullanır.

Son parametre "hdfs://all-nc-s-hdfs/backup/mydata", PowerScale kümenizdeki hedef yoludur. "all-nc-s-hdfs" ana bilgisayar bölümü, all-nc-s-hdfs.example.com. gibi göreli veya tam nitelikli bir DNS adı olabilir. PowerScale kümenizin SmartConnect Bölge DNS adı olması gerekir. "/backup/mydata" dizin bölümü, PowerScale kümesi erişim bölgenizde tanımlanan HDFS kök yoluna görelidir. HDFS kök yolunuz /ifs/hadoop isebu değer /ifs/hadoop/backup/mydata yolunu belirtir.

Kaynak ve hedef dizinlerde boyutları aynı olan dosyaların değiştirilmediği varsayılır ve kopyalanmazlar. Özellikle de değiştirilen dosyaları belirlemek için dosya zaman damgaları kullanılamaz. DistCp hakkında daha fazla bilgi için Hadoop DistCp Version 2 Guide (İngilizce) belgesine bakın. Bu köprü bağlantı sizi Dell Technologies dışındaki bir web sitesine yönlendirir.

İZİN KOPYALAMA
Varsayılan olarak, hedef dosyaların sahibi, grubu ve izinleri, DistCp'yi başlatan kullanıcı tarafından oluşturulan yeni dosyalar için varsayılana sıfırlanır. Kaynak dosya için tanımlanan tüm sahipler, gruplar ve izinler kaybolur. Bu bilgileri kaynak dosyalardan geri almak için -p seçeneğini kullanın. -p seçeneğinin chown/chgrp gerçekleştirmesi gerektiğinden, DistCp'yi başlatan kullanıcının hedef sistemde süper kullanıcı olması gerekir. Bu amaç için PowerScale kümesindeki kök kullanıcı kullanılabilir. Örneğin: 

[root@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update -pugp /mydata hdfs://all-nc-s-hdfs/backup/mydata

YEDEKLEME KAYNAĞINIZ İÇİN ANLIK GÖRÜNTÜLER KULLANMA
Büyük veri kümelerini yedeklenmesi uzun zaman alabilir. DistCp işleminin başında, dizin yapısı taranırken mevcut olan dosyalar, dosya kopyalandıktan sonra artık mevcut olmayabilir. Dosyalardaki bu değişiklik hatalara yol açar. Ayrıca bir uygulamanın kullanılabilir olabilmesi için tutarlı bir zaman içinde tek nokta yedeklemesi gerekli olabilir. Dolayısıyla, yedekleme işlemi sırasında veri kümesinin değişmesini engellemek ve bu sorunları önlemek amacıyla, kaynağınızın bir HDFS anlık görüntüsünü oluşturmanız önerilir. Bu, hedef PowerScale kümenizin SnapshotIQ özelliğiyle ilgili değildir.

HDFS anlık görüntülerini kullanabilmek için öncelikle belirli bir dizin için anlık görüntülere izin vermeniz gerekir:

[gpadmin@phddas2-0 ~]$ hdfs dfsadmin -allowSnapshot /mydata
Allowing snapshot on /mydata succeeded


DistCp ile yedekleme yapmadan hemen önce HDFS anlık görüntüsünü oluşturun:

[gpadmin@phddas2-0 ~]$ hdfs dfs -createSnapshot /mydata backupsnap Created snapshot /mydata/.snapshot/backupsnapBu anlık görüntünün adı backupsnap

'tir. Bu dosyaya HDFS yolu /mydata/.snapshot/backupsnap üzerinden erişebilirsiniz. Bu anlık görüntüden sonra HDFS dosyalarında yapılan değişiklikler sonraki yedeklemeye yansıtılmaz. Şu komutu kullanarak anlık görüntüyü PowerScale'e yedekleyebilirsiniz:

[gpadmin@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update /mydata/.snapshot/backupsnap hdfs://all-nc-s-hdfs/backup/mydata

Yedekleme komutunun çalıştırılması sona erdiğinde anlık görüntüyü silebilirsiniz. Bunu yaptığınızda, şu anlık görüntü oluşturulduktan sonra değiştirilen dosyaların eski sürümlerini tutmak için kullanılan tüm alan boşaltılır: 

[gpadmin@phddas2-0 ~]$ hdfs dfs -deleteSnapshot /mydata backupsnap

YEDEKLEME HEDEFİNİZ İÇİN PowerScale ANLIK GÖRÜNTÜLERİ KULLANMA
Yedekleme kaynağınız için anlık görüntülerin kullanılmasından bağımsız olarak, dosyaların eski sürümlerini geri yükleyebilmek için yedekleme hedef dizininizin birden fazla anlık görüntüsünü tutmanız gerekebilir.

PowerScale'de anlık görüntüler oluşturmak için SnapshotIQ lisansına sahip olmanız gerekir. Anlık görüntüler oluşturmak için web yöneticisi arayüzünü veya CLI'yi kullanabilirsiniz. CLI ile manuel olarak tek bir PowerScale anlık görüntüsü oluşturmak için SSH kullanarak herhangi bir PowerScale düğümüne erişin ve aşağıdaki komutu çalıştırın:

all-nc-s-1# isi snapshot snapshots create /ifs/hadoop/backup/mydata --name backup-2014-07-01 --expires 1D --verbose
Created snapshot backup-2014-07-01 with ID 6


Bu komutu, aşağıdaki Yedeklemeleri Zamanlama bölümünde ele alınan yedekleme işlemine ekleyebilirsiniz. 

PowerScale OneFS anlık görüntüleriyle ilgili daha fazla bilgi için OneFS sürümünüzün PowerScale OneFS CLI Yönetim Rehberi'ne bakın: PowerScale OneFS Bilgi Merkezleri

BİRDEN FAZLA PowerScale KÜMESİ İÇİN SYNCIQ ÇOĞALTMA
PowerScale kümesine yapılan DistCp yedeklemesi tamamlandıktan sonra, anlık görüntüleri WAN üzerinden diğer PowerScale kümelerine kopyalamak için OneFS SyncIQ kullanabilirsiniz. Çoğaltılmış anlık görüntüler, felaket kurtarma stratejinizin çok yönlü ve verimli bir bileşeni olarak kullanılabilir.

Birden fazla Isilon kümesi için SynIQ Çoğaltma
Şekil 2: Birden fazla Isilon kümesi için SynIQ Çoğaltma

SİLİNEN DOSYALARA YÖNELİK İŞLEM
Varsayılan olarak, kaynak Hadoop kümesinden silinen dosyalar hedef Hadoop kümesinden silinmez. Bu davranışın uygulanmasını istiyorsanız DistCp komutuna -delete argümanını ekleyin. Bu komutu kullanırken silinen dosyaların kurtarılmasına imkan tanımak için yedekleme hedefinde anlık görüntülerin kullanılması önerilir.

YEDEKLEMELERİ ZAMANLAMA
Hadoop kümesi yedekleme adımlarını, çeşitli yöntemler kullanarak otomatik hale getirebilir ve planlayabilirsiniz. Genellikle Hadoop görevlerini otomatik hale getirmek için Apache Oozie kullanılır ve doğrudan DistCp'yi destekler. Ayrıca Shell komut dosyası çalıştırmak için CRON da kullanılabilir. SSH oturumunda komut çalıştırmayı otomatik hale getirmek için parolasız SSH'yi etkinleştirin. Parolasız SSH, bir CRON kullanıcısının Hadoop istemcinize ve PowerScale kümenize (SnapshotIQ kullanılıyorsa) bağlamasına imkan tanır.


KURTARMA YÖNTEMLERİ

TERS DISTCP

DistCp yedeklemesini PowerScale'den geleneksel bir Hadoop altyapısına geri yüklemek için kullanılan standart yöntem, DistCp'yi ters yönde çalıştırmaktır. Bunu, kaynak ve hedef yolları değiştirerek gerçekleştirin.

[gpadmin@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update hdfs://all-nc-s-hdfs/backup/mydata /mydata

Kurtarma işlemi sırasında yapılan hataları geri alabilmek için hedef dizinin anlık görüntüsünü oluşturmanız iyi olabilir. Ancak anlık görüntülerin tutulması için gerekli ek disk kullanımını da göz önünde bulundurun.


HDFS KULLANARAK YEDEKLEME VERİLERİNE DOĞRUDAN ERİŞİM

PowerScale'in HDFS desteği sayesinde, PowerScale'deki yedekleme hedef dosyalarına, kaynak dosyaları için olduğu gibi Hadoop uygulamalarından erişilebilir. Yedekleme verilerinizi ilk önce orijinal kaynak Hadoop ortamınıza geri yüklemeniz gerekmeden doğrudan kullanabilirsiniz. Bu özellik, analiz süresi kazanmayı sağlar. Örneğin, aşağıdaki gibi bir MapReduce komutu çalıştırdığınızda:

hadoop jar /usr/lib/gphd/hadoop-mapreduce/hadoop-mapreduce-examples.jar grep /mydata/mydataset1 output1 ABC

Aşağıdaki komutu kullanarak MapReduce işini PowerScale'deki yedek veri kümesi için çalıştırabilirsiniz:

hadoop jar /usr/lib/gphd/hadoop-mapreduce/hadoop-mapreduce-examples.jar grep hdfs://all-nc-s-hdfs/backup/ /mydata/mydataset1 output1 ABC

fs.defaultFS parametresini kullanmak yerine tam nitelikli bir Hadoop yolu belirtmek istiyorsanız bu konuda bilgi almak için uygulama sağlayıcınıza başvurun. Ayrıca yüksek performans yerine yedekleme ve arşivleme için tasarlanmış bir PowerScale kümesinin, birincil Hadoop ortamınız ile aynı performansı sağlamaması olasıdır. Test etme önerilir. Bunun yerine, doğru boyutlandırma için Dell PowerScale'e de danışabilirsiniz.


PowerScale ANIK GÖRÜNTÜLERİNDEN KURTARMA

Dosyaları önceki bir PowerScale anlık görüntüsünden kurtarabilirsiniz. Dosyalar /ifs/.snapshot dizininde bulunur. Ayrıntılar ve diğer seçenekler için PowerScale OneFS CLI Yönetim Rehberi'ne bakın.

HDFS SÜRÜM UYUMLULUĞU
PowerScale, HDFS'nin birden çok sürümüyle uyumludur. Aynı veri kümesine erişmek için bunları aynı anda kullanabilirsiniz. PowerScale, herhangi bir yapılandırma olmadan her bağlantı için uygun HDFS sürümünü otomatik olarak tespit edebilir. Desteklenen Hadoop dağıtımları ve sürümleri listesi için PowerScale OneFS CLI Yönetim Rehberi'ne bakın veya OneFS Tarafından Desteklenen Hadoop Dağıtımları ve Ürünleri sayfasına gidin. Sürüm uyumluluğu, Hadoop'un farklı sürümlerini çalıştıran birden fazla Hadoop ortamının HDFS kullanarak tek bir PowerScale kümesine yedekleme yapabileceği anlamına gelir.

PowerScale'in Hadoop sürümünüzü desteklemediği durumlarda, DistCp kullanarak HFTP aracılığıyla PowerScale ile Hadoop verilerinizi yedekleyebilir ve geri yükleyebilirsiniz. Örneğin PHD 2.0 ve üzeri, PowerScale OneFS 7.1.1 ve öncesi sürümlerde desteklenmez. Bu yapılandırmada, PowerScale'in doğrudan desteklediği bir Hadoop sürümünü kullanarak küçük bir Hadoop kümesi oluşturmalısınız. Hadoop kümesi oluşturulduktan sonra, orijinal Hadoop kümenizdeki kaynak verilere erişmek için HFTP protokolünü kullanarak bu yeni kümede DistCp'yi çalıştırın. HFTP protokolü, Hadoop'un farklı sürümlerinde uyumlu olan salt okunur bir dosya sistemidir. Örnek:[gpadmin@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update hftp://phddas2-namenode-0/mydata hdfs://all-nc-s-hdfs/backup/mydata

DistCp MapReduce işini çalıştıran yeni küçük kümenin boyutu temel olarak gerekli aktarım hızına bağlıdır. Yedekleme hızı gereksiniminiz yalnızca 10 GB/sn ise tek bir Hadoop düğümüne ihtiyacınız vardır. Bu küçük Hadoop kümesinde hiçbir veri depolanmadığından, disk gereksinimleri minimum düzeydedir.

Uyumsuz protokol sürümleriyle Isilon'a Hadoop kümesi yedekleme
Şekil 3: Uyumsuz protokol sürümleriyle Isilon'a Hadoop kümesi yedekleme


SONUÇ

Dell PowerScale, Hadoop ve diğer Big Data uygulamaları için harika bir platformdur. Geleneksel HDFS'nin sağladığı %33 depolama verimliliğine kıyasla %80'den fazla depolama verimliliğiyle veri korumak için silme kodlaması kullanır. Dell PowerScale; yoğun NL400, yüksek performanslı S210 ve ikisinin arasında olan X410'a gibi çok çeşitli düğüm tipi sınıflarına sahiptir. Farklı düğüm tipleri, belirli iş yükleri için farklı PowerScale katmanlarını optimize etmenize imkan tanır. Geleneksel Hadoop ortamlarının PowerScale'e yedeklenmesi kolaydır ve en yoğun kullanılabilir HDFS yedekleme hedefine imkan tanır.

Article Properties


Affected Product

Isilon, PowerScale OneFS, Isilon with HDFS

Last Published Date

20 Sep 2023

Version

6

Article Type

How To