Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

Zálohování platformy Hadoop do řešení Isilon

Summary: Tento článek popisuje doporučené vzorové postupy pro zálohování prostředí Hadoop jiných systémů než Isilon do clusteru Isilon.

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Instructions


Vzorové postupy pro použití nástroje DistCp k zálohování Hadoop

Tento článek popisuje doporučené vzorové postupy pro zálohování prostředí Hadoop jiných systémů než PowerScale do clusteru Dell PowerScale. Díky robustní ochraně dat Erasure Coding, která poskytuje vyšší než 80% efektivitu ukládání, je systém Dell PowerScale ideálním cílem pro zálohování data umístěných v clusteru Hadoop. DistCp (distribuovaná kopie) je standardní nástroj, který se dodává se všemi distribucemi a verzemi Hadoop. Nástroj DistCp může kopírovat celé adresáře Hadoop. Nástroj DistCp běží jako úloha MapReduce pro paralelní vytvoření kopií souborů a v případě potřeby plně využívá vaše systémy. K dispozici je také možnost omezit šířku pásma pro řízení dopadu na jiné úlohy.

PROSTŘEDÍ
Tento článek používá následující testovací prostředí:

  • Pivotal HD (PHD) 2.0.1, nainstalované pomocí Pivotal Control Center 2.0, všechna nastavení mají výchozí hodnoty. HDFS se instaluje na uzly PHD pro tradiční konfiguraci DAS.
  • PowerScale OneFS 7.2.0

Vzhledem k tomu, že je nástroj DistCp standardním nástrojem Hadoop, přístup uvedený v tomto dokumentu platí pro většinu, ne-li všechny ostatní distribuce a verze hadoop.

Při čtení tohoto dokumentu předpokládejte, že data, která se mají zálohovat, se nacházejí v clusteru PHD Hadoop HDFS v adresáři /mydata. V příkladu jsou tato data zálohována v clusteru PowerScale v adresáři /ifs/hadoop/backup/mydata.

Zálohování clusteru Hadoop do řešení Isilon
Obrázek 1: Zálohování clusteru Hadoop do řešení Isilon


METODY ZÁLOHOVÁNÍ:

NEJJEDNODUŠŠÍ METODA ZÁLOHOVÁNÍ

Níže je uveden nejjednodušší příkaz k zálohování:

[gpadmin@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update /mydata hdfs://all-nc-s-hdfs/backup/mydata

Výše uvedený příkaz můžete spustit u libovolného hostitele s nainstalovaným klientem Hadoop (hadoop). Uživatel, který spustí příkaz, musí mít oprávnění ke čtení zdrojových souborů a zápisu cílových souborů.

Aby se zabránilo kontrole CRC u cílových souborů umístěných v clusteru PowerScale, je nutné zadat možnosti -skipcrccheck-update. Systém PowerScale neukládá kontrolu CRC Hadoop a výpočet by byl příliš náročný. Proto jsou tyto možnosti nutné, aby se zabránilo chybám souvisejícím s kontrolou CRC.

Další parametr „/mydata“ představuje zdrojovou cestu ve zdrojovém clusteru Hadoop. Může jít také o „/“ pro zálohování celého oboru názvů HDFS. Jelikož cesta není plně kvalifikovaná, používá hodnotu HDFS NameNode zadanou v parametru fs.defaultFS souboru core-site.xml.

Poslední parametr „hdfs://all-nc-s-hdfs/backup/mydata“ představuje cílovou cestu v clusteru PowerScale. Část hostitele „all-nc-s-hdfs“ může být relativní nebo plně kvalifikovaný název DNS, například all-nc-s-hdfs.example.com. Mělo by se jednat o název DNS zóny SmartConnect pro váš cluster PowerScale. Část adresáře „/backup/mydata“ je relativní ke kořenové cestě HDFS definované v zóně přístupu clusteru PowerScale. Pokud je vaše kořenová cesta HDFS /ifs/hadoop, tato hodnota odkazuje na /ifs/hadoop/backup/mydata.

Soubory, jejichž velikosti jsou identické ve zdrojovém a cílovém adresáři, se považují za nezměněné a nezkopírují se. K určení změněných souborů se nepoužívají časová razítka souborů. Další podrobnosti o DistCp naleznete v příručce k Hadoop DistCp verze 2 Tento hypertextový odkaz vás zavede na webové stránky mimo společnost Dell Technologies..

OPRÁVNĚNÍ KE KOPÍROVÁNÍ
Ve výchozím nastavení se vlastník, skupina a oprávnění cílových souborů obnoví na výchozí hodnoty pro nové soubory vytvořené uživatelem, který spouští DistCp. Dojde ke ztrátě všech vlastníků, skupin a oprávnění definovaných pro zdrojový soubor. Chcete-li zachovat tyto informace ze zdrojových souborů, použijte možnost -p. Protože možnost -p musí provést příkaz „chown/chgrp“, uživatel, který spouští DistCp, musí být v cílovém systému superuživatelem. K tomuto účelu se používá uživatel root v clusteru PowerScale. Například: 

[root@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update -pugp /mydata hdfs://all-nc-s-hdfs/backup/mydata

POUŽITÍ SNAPSHOTŮ PRO ZDROJ ZÁLOHY
Zálohování velkých datových sad může trvat dlouho. Soubory, které existují na začátku procesu DistCp při skenování struktury adresářů, již nemusí existovat při kopírování tohoto souboru. Tato změna v souborech způsobuje chyby. Aby bylo možné aplikaci použít, může dále vyžadovat konzistentní zálohu v jednom bodě v čase. Chcete-li tyto problémy vyřešit, doporučujeme vytvořit snapshot HDFS zdroje, abyste zajistili, že se datová sada během procesu zálohování nezmění. To nesouvisí s funkcí SnapshotIQ cílového clusteru PowerScale.

Chcete-li použít snapshoty HDFS, musíte nejprve povolit snapshoty pro konkrétní adresář:

[gpadmin@phddas2-0 ~]$ hdfs dfsadmin -allowSnapshot /mydata
Allowing snapshot on /mydata succeeded


Bezprostředně před zálohováním pomocí nástroje DistCp vytvořte snapshot HDFS:

[gpadmin@phddas2-0 ~]$ hdfs dfs -createSnapshot /mydata backupsnap Created snapshot /mydata/.snapshot/backupsnap

Název tohoto snapshotu je backupsnap. Najdete ho v cestě HDFS /mydata/.snapshot/backupsnap. Žádné změny souborů HDFS se po pořízení tohoto snapshotu v následné záloze neprojeví. Snapshot můžete zálohovat do úložiště PowerScale pomocí následujícího příkazu:

[gpadmin@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update /mydata/.snapshot/backupsnap hdfs://all-nc-s-hdfs/backup/mydata

Po dokončení příkazu k zálohování můžete snapshot odstranit. Uvolní se tak veškeré místo, které se používá k uchování starších verzí souborů změněných od pořízení snapshotu: 

[gpadmin@phddas2-0 ~]$ hdfs dfs -deleteSnapshot /mydata backupsnap

POUŽITÍ SNAPSHOTŮ POWERSCALE PRO CÍL ZÁLOH
Nezávisle na použití snapshotů pro zdroj zálohování může být žádoucí uchovávat více snapshotů cílového adresáře zálohy, abyste mohli obnovit starší verze souborů.

Chcete-li vytvořit snapshoty v systému PowerScale, budete potřebovat licenci SnapshotIQ. Snapshoty můžete vytvořit pomocí webového rozhraní správce nebo rozhraní příkazového řádku. Chcete-li vytvořit jeden snapshot PowerScale ručně pomocí rozhraní příkazového řádku, připojte se přes SSH do libovolného uzlu PowerScale a spusťte následující příkaz:

all-nc-s-1# isi snapshot snapshots create /ifs/hadoop/backup/mydata --name backup-2014-07-01 --expires 1D --verbose
Created snapshot backup-2014-07-01 with ID 6


Tento příkaz můžete přidat do procesu zálohování popsaného v části Plánování záloh níže. 

Další podrobnosti o snapshotech PowerScale OneFS najdete v průvodci správou rozhraní příkazového řádku PowerScale OneFS pro vaši verzi systému OneFS: Informační centra k systému PowerScale OneFS

REPLIKACE SYNCIQ PRO VÍCE CLUSTERŮ POWERSCALE
Po dokončení zálohování DistCp do clusteru PowerScale můžete použít aplikaci OneFS SyncIQ k replikaci snapshotů v síti WAN do jiných clusterů PowerScale. Replikované snapshoty mohou poskytovat všestrannou a efektivní součást strategie zotavení po havárii.

Replikace SynIQ pro více clusterů Isilon
Obrázek 2: Replikace SynIQ pro více clusterů Isilon

ZPRACOVÁNÍ ODSTRANĚNÝCH SOUBORŮ
Ve výchozím nastavení nebudou soubory odstraněné ze zdrojového clusteru Hadoop odstraněny z cílového clusteru Hadoop. Pokud si to však přejete, přidejte do příkazu DistCp argument „-delete“. Při použití tohoto příkazu doporučujeme používat snapshoty v cíli zálohování, aby bylo možné obnovit odstraněné soubory.

PLÁNOVÁNÍ ZÁLOH
Pomocí různých metod můžete automatizovat a naplánovat postup zálohování clusteru Hadoop. Apache Oozie se často používá k automatizaci úloh Hadoop a přímo podporuje DistCp. CRON lze také použít ke spuštění skriptu Shell. Chcete-li automatizovat spouštění příkazů v relaci SSH, povolte SSH bez hesla. SSH bez hesla umožňuje uživateli CRON připojit se k vašemu klientovi Hadoop a clusteru PowerScale (pokud používá software SnapshotIQ).


METODY OBNOVENÍ

OBRÁCENÝ PROCES DISTCP

Standardní metodou pro obnovení zálohy DistCp ze systému PowerScale do tradiční infrastruktury Hadoop je spustit DistCp v opačném směru. To provedete prohozením zdrojových a cílových cest.

[gpadmin@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update hdfs://all-nc-s-hdfs/backup/mydata /mydata

Je možné, že budete chtít vytvořit snapshot cílového adresáře, abyste mohli vrátit zpět všechny chyby, ke kterým došlo během procesu obnovení. Upozorňujeme však, že údržba snapshotů vyžaduje další místo na disku.


PŘÍMÝ PŘÍSTUP K ZÁLOHOVANÝM DATŮM POMOCÍ HDFS

Cílové soubory zálohy v systému PowerScale jsou přístupné z aplikací Hadoop stejným způsobem jako zdrojové soubory z důvodu podpory HDFS v úložišti PowerScale. Zálohovaná data můžete použít přímo, aniž byste je museli nejprve obnovovat do původního zdrojového prostředí Hadoop. Tato možnost šetří čas pro analýzu. Pokud například spustíte příkaz MapReduce takto:

hadoop jar /usr/lib/gphd/hadoop-mapreduce/hadoop-mapreduce-examples.jar grep /mydata/mydataset1 output1 ABC

Úlohu MapReduce můžete spustit na zálohovanou datovou sadu v systému PowerScale pomocí následujícího příkazu:

hadoop jar /usr/lib/gphd/hadoop-mapreduce/hadoop-mapreduce-examples.jar grep hdfs://all-nc-s-hdfs/backup/ /mydata/mydataset1 output1 ABC

Chcete-li zadat plně kvalifikovanou cestu Hadoop namísto použití parametru fs.defaultFS, vyhledejte podrobnosti u poskytovatele aplikace. Zároveň cluster PowerScale, který je navržen pro zálohování a archivaci namísto pro vysoký výkon, pravděpodobně nebude poskytovat stejný výkon jako primární prostředí Hadoop. Doporučujeme provést testování nebo se poradit s podporou Dell PowerScale, abyste mohli nastavit správnou velikost.


OBNOVENÍ ZE SNAPSHOTŮ POWERSCALE

Soubory můžete obnovit z předchozího snapshotu PowerScale. Soubory jsou k dispozici v adresáři /ifs/.snapshot. Podrobnosti a další možnosti najdete v průvodci správou rozhraní příkazového řádku PowerScale OneFS.

KOMPATIBILITA VERZÍ HDFS
Úložiště PowerScale je kompatibilní s několika verzemi HDFS. Můžete je použít současně pro přístup ke stejné datové sadě. Systém PowerScale dokáže automaticky zjistit příslušnou verzi HDFS v připojení bez konfigurace. Seznam podporovaných distribucí a verzí Hadoop naleznete v průvodci správou rozhraní příkazového řádku PowerScale OneFS nebo v článku Distribuce a produkty Hadoop podporované na uzlu OneFS. Kompatibilita verzí znamená, že více prostředí Hadoop s různými verzemi Hadoop může zálohovat do jednoho clusteru PowerScale pomocí HDFS.

Pokud systém PowerScale nepodporuje vaši verzi Hadoop, můžete zálohovat a obnovovat data Hadoop pomocí procesu DistCp a systému PowerScale s protokolem HFTP. Například verze PHD 2.0 a novější nejsou podporovány v systému PowerScale OneFS 7.1.1 a starších. V této konfiguraci je nutné vytvořit malý cluster Hadoop pomocí verze Hadoop, kterou systém PowerScale přímo podporuje. Po vytvoření nového clusteru Hadoop v něm spusťte proces DistCp pomocí protokolu HFTP, abyste získali přístup ke zdrojovým datům v původním clusteru Hadoop. Protokol HFTP je systém souborů pouze pro čtení, který je kompatibilní s různými verzemi Hadoop. Například:
[gpadmin@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update hftp://phddas2-namenode-0/mydata hdfs://all-nc-s-hdfs/backup/mydata

Velikost nového malého clusteru, který spouští úlohu DistCp MapReduce, primárně závisí na požadované propustnosti. Pokud požadujete zálohu pouze při rychlosti 10 Gb/s, budete potřebovat pouze jeden uzel Hadoop. Žádná data se nebudou ukládat v tomto malém clusteru Hadoop, takže požadavky na disk jsou minimální.

Zálohování clusteru Hadoop do řešení Isilon s nekompatibilními verzemi protokolu
Obrázek 3: Zálohování clusteru Hadoop do řešení Isilon s nekompatibilními verzemi protokolu


ZÁVĚR

Dell PowerScale je skvělou platformou pro řešení Hadoop a další aplikace Big Data. Používá metodu Erasure Coding k ochraně dat s více než 80% efektivitou ukládání, na rozdíl od tradičního systému HDFS s 33% efektivitou ukládání. Systém Dell PowerScale nabízí několik tříd typů uzlů od hustého úložiště NL400 po vysoce výkonné úložiště S210 a model X410 pak zapadá mezi ně. Různé typy uzlů umožňují optimalizovat různé úrovně PowerScale pro konkrétní pracovní úlohy. Zálohování tradičních prostředí Hadoop do úložiště PowerScale je snadné a umožňuje nejhustší cíl pro zálohování HDFS.

Article Properties


Affected Product

Isilon, PowerScale OneFS, Isilon with HDFS

Last Published Date

20 Sep 2023

Version

6

Article Type

How To