Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

Säkerhetskopiera Hadoop till PowerScale

Summary: I den här artikeln beskrivs den rekommenderade bästa praxis för säkerhetskopiering av Hadoop-miljöer som inte kommer från Isilon till ett Isilon-kluster.

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Instructions

Obs! Det här avsnittet är en del av Informationshubben använda Hadoop med OneFS.


Bästa praxis för att använda DistCp för att säkerhetskopiera Hadoop

I den här artikeln beskrivs rekommenderad bästa praxis för säkerhetskopiering av Hadoop-miljöer som inte kommer från PowerScale till ett Dell PowerScale-kluster. Med sitt robusta kodade dataskydd som ger större än 80 % bättre lagringseffektivitet är Dell PowerScale ett perfekt säkerhetskopieringsmål för data som finns i ett Hadoop-kluster. DistCp (distributed copy) är ett standardverktyg som medföljer alla Hadoop-distributioner och -versioner. DistCp kan kopiera hela Hadoop-kataloger. DistCp körs som ett MapReduce-jobb för att utföra filkopior parallellt och använda dina system fullständigt vid behov. Det finns även ett alternativ för att begränsa bandbredden för att styra påverkan på andra uppgifter.

MILJÖ
I den här artikeln används följande testmiljö:

  • Pivotal HD (PHD) 2.0.1, installerad med Pivotal Control Center 2.0, använder alla inställningar standardvärden. I synnerhet är HDFS installerat på PHD-noderna för en traditionell DAS-konfiguration.
  • PowerScale OneFS 7.2.0

Eftersom DistCp är ett vanligt Hadoop-verktyg gäller metoden som beskrivs i det här dokumentet för de flesta, om inte alla andra Hadoop-distributioner och -versioner.

När du läser det här dokumentet, anta att data som ska säkerhetskopieras finns på PHD Hadoop HDFS-klustret i katalogen /mydata. Exemplen säkerhetskopierar dessa data till PowerScale-klustret i katalogen /ifs/hadoop/backup/mydata.

Säkerhetskopiera ett Hadoop-kluster till Isilon
Bild 1: Säkerhetskopiera ett Hadoop-kluster till Isilon


METODER FÖR SÄKERHETSKOPIERING:

DEN ENKLASTE METODEN FÖR SÄKERHETSKOPIERING

Det enklaste säkerhetskopieringskommandot visas nedan:

[gpadmin@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update /mydata hdfs://all-nc-s-hdfs/backup/mydata

Du kan köra ovanstående kommando på alla värdar som har Hadoop-klienten (hadoop) installerad. Användaren som kör kommandot måste ha behörighet att läsa källfilerna och skriva målfilerna.

Alternativen -skipcrccheck och -update måste anges för att undvika CRC-kontrollen av målfilerna som finns i PowerScale-klustret. PowerScale lagrar inte Hadoop CRC, och det skulle bli för dyrt att beräkna det. Därför krävs dessa alternativ för att förhindra fel som är relaterade till CRC-kontrollen.

Nästa parameter "/mydata" är källsökvägen i Hadoop-källklustret. Det kan också vara "/" för att säkerhetskopiera hela HDFS-namnrymden. Eftersom sökvägen inte är fullständigt kvalificerad använder den HDFS NameNode som anges i fs.defaultFS-parametern core-site.xml.

Den sista parametern "hdfs://all-nc-s-hdfs/backup/mydata" är målsökvägen på PowerScale-klustret. Värddelen "all-nc-s-hdfs" kan vara ett relativt eller fullständigt kvalificerat DNS-namn, t.ex. all-nc-s-hdfs.example.com. Det ska vara DNS-namnet på SmartConnect Zone för PowerScale-klustret. Katalogdelen "/backup/mydata" är i förhållande till HDFS-rotsökvägen som definierats i Åtkomstzonen för PowerScale-klustret. Om HDFS-rotsökvägen är /ifs/hadoopbetyder det här värdet för /ifs/hadoop/backup/mydata.

Filer vars storlekar är identiska på käll- och målkataloger antas vara oförändrade och kopieras inte. I synnerhet används inte tidsstämplar för filer för att fastställa ändrade filer. Mer information om DistCp finns i Hadoop DistCp version 2-manualen. Den här hyperlänken tar dig till en webbplats utanför Dell Technologies.

KOPIERA BEHÖRIGHETER
Som standard återställs målfilernas ägare, grupp och behörigheter till standardinställningarna för nya filer som skapats av användaren och initierar DistCp. Alla ägare, grupper och behörigheter som definierats för källfilen går förlorade. Använd alternativet -p för att behålla den här informationen från källfilerna. Eftersom alternativet -p måste utföra chown/chgrp måste användaren som initierar DistCp vara en superanvändare i målsystemet. Rotanvändaren i PowerScale-klustret fungerar för detta ändamål. Till exempel: 

[root@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update -pugp /mydata hdfs://all-nc-s-hdfs/backup/mydata

ANVÄNDA SNAPSHOTS FÖR SÄKERHETSKOPIERINGSKÄLLAN
Säkerhetskopiering av stora datauppsättningar kan ta lång tid. Filer som finns i början av DistCp-processen när katalogstrukturen skannas kanske inte längre finns när den filen kopieras. Den här ändringen av filer ger upphov till fel. Dessutom kan ett program kräva en konsekvent säkerhetskopiering av en enskild tidpunkt för att det ska vara användbart. För att lösa dessa problem rekommenderar vi att du skapar en HDFS-snapshot av källan för att säkerställa att datauppsättningen inte ändras under säkerhetskopieringen. Det här är inte relaterat till SnapshotIQ-funktionen i PowerScale-målklustret.

Om du vill använda HDFS-snapshots måste du först tillåta snapshots för en viss katalog:

[gpadmin@phddas2-0 ~]$ hdfs dfsadmin -allowSnapshot /mydata
Allowing snapshot on /mydata succeeded


Omedelbart före en säkerhetskopiering med DistCp skapar du HDFS-snapshot:[gpadmin@phddas2-0 ~]$ hdfs dfs -createSnapshot /mydata backupsnap Created snapshot /mydata/.snapshot/backupsnap

Namnet på den här snapshoten är backupsnap.

 Du kommer åt den på HDFS-sökvägen /mydata/.snapshot/backupsnap. Eventuella ändringar av HDFS-filerna efter den här ögonblicksbilden återspeglas inte i den efterföljande säkerhetskopieringen. Du kan säkerhetskopiera ögonblicksbilden till PowerScale med hjälp av följande kommando:

[gpadmin@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update /mydata/.snapshot/backupsnap hdfs://all-nc-s-hdfs/backup/mydata

När säkerhetskopieringskommandot körs kan du ta bort ögonblicksbilden. På så sätt frigör du allt utrymme som används för att spara äldre versioner av filer som ändrats sedan snapshotet: 

[gpadmin@phddas2-0 ~]$ hdfs dfs -deleteSnapshot /mydata backupsnap

ANVÄNDA PowerScale SNAPSHOTS FÖR SÄKERHETSKOPIERINGSMÅL
Oberoende av att använda snapshots för säkerhetskopieringskällan kanske du vill behålla flera snapshots av målkatalogen för säkerhetskopiering för att återställa äldre versioner av filer.

Om du vill skapa snapshots i PowerScale måste du ha en SnapshotIQ-licens. Du kan skapa snapshots med hjälp av webbadministratörsgränssnittet eller CLI. Skapa en enda PowerScale-snapshot manuellt med CLI genom att SSH-ansluta till valfri PowerScale-nod och köra följande:

all-nc-s-1# isi snapshot snapshots create /ifs/hadoop/backup/mydata --name backup-2014-07-01 --expires 1D --verbose
Created snapshot backup-2014-07-01 with ID 6


Du kan lägga till det här kommandot i säkerhetskopieringsprocessen som beskrivs i avsnittet Scheduling Backups nedan. 

Mer information om PowerScale OneFS-snapshots finns i administrationsmanualen för PowerScale OneFS CLI för din version av OneFS: Informationshubbar

för PowerScale OneFSSYNCIQ-REPLIKERING FÖR FLERA PowerScale-KLUSTER
När DistCp-säkerhetskopieringen till PowerScale-klustret har slutförts kan du använda OneFS SyncIQ för att replikera snapshots över ett WAN till andra PowerScale-kluster. Replikerade snapshots kan vara en mångsidig och effektiv komponent i din strategi för katastrofåterställning.

SynIQ-replikering för flera Isilon-kluster
Bild 2: SynIQ-replikering för flera Isilon-klusterSOM HANTERAR BORTTAGNA

FILER
Som standard tas filer som tagits bort från Hadoop-källklustret inte bort från Hadoop-målklustret. Om du behöver det lägger du till argumentet -delete i DistCp-kommandot. När du använder det här kommandot rekommenderar vi att du använder snapshots på säkerhetskopieringsmålet för att möjliggöra återställning av borttagna filer.

SCHEMALÄGGA SÄKERHETSKOPIERINGAR
Du kan automatisera och schemalägga stegen för att säkerhetskopiera ett Hadoop-kluster med olika metoder. Apache Oo alias används ofta för att automatisera Hadoop-uppgifter och har direkt stöd för DistCp. CRON kan även användas för att köra ett Shell-skript. Aktivera lösenordsfri SSH för att automatisera körning av kommandon i en SSH-session. Med den lösenordslösa SSH-enheten kan en CRON-användare ansluta till Hadoop-klienten och PowerScale-klustret (om du använder SnapshotIQ).


ÅTERSTÄLLNINGSMETODER

OMVÄND DISTCP

Standardmetoden för att återställa en DistCp-säkerhetskopia från PowerScale till en traditionell Hadoop-infrastruktur är att köra DistCp i omvänd riktning. Gör detta genom att byta käll- och målsökvägar.

[gpadmin@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update hdfs://all-nc-s-hdfs/backup/mydata /mydata

Du kanske vill skapa en snapshot av målkatalogen så att du kan ångra eventuella misstag som görs under återställningsprocessen. Tänk dock på den extra diskanvändning som krävs för att upprätthålla snapshots.


DIREKT ÅTKOMST TILL SÄKERHETSKOPIERING AV DATA MED HDFS

Målfilerna för säkerhetskopiering i PowerScale är tillgängliga från Hadoop-program på samma sätt som källfilerna, på grund av PowerScales stöd för HDFS. Du kan använda dina säkerhetskopieringsdata direkt utan att behöva återställa dem till den ursprungliga källans Hadoop-miljö. Den här funktionen sparar analystid. Om du till exempel kör ett MapReduce-kommando som det här:

hadoop jar /usr/lib/gphd/hadoop-mapreduce/hadoop-mapreduce-examples.jar grep /mydata/mydataset1 output1 ABC

Du kan köra MapReduce-jobbet mot säkerhetskopieringsdatauppsättningen på PowerScale med följande kommando:

hadoop jar /usr/lib/gphd/hadoop-mapreduce/hadoop-mapreduce-examples.jar grep hdfs://all-nc-s-hdfs/backup/ /mydata/mydataset1 output1 ABC

Om du vill ange en fullständigt kvalificerad Hadoop-sökväg i stället för att använda parametern fs.defaultFS kontrollerar du med programleverantören för mer information. Dessutom har ett PowerScale-kluster som är utformat för säkerhetskopiering och arkivering i stället för för hög prestanda sannolikt inte att ge samma prestanda som din primära Hadoop-miljö. Testning rekommenderas, eller rådgör med Dell PowerScale för korrekt storlek.


ÅTERSTÄLLNING FRÅN PowerScale SNAPSHOTS

Du kan återställa filer från en tidigare PowerScale-snapshot. Filerna är tillgängliga i katalogen /ifs/.snapshot. Mer information och andra alternativ finns i administrationsmanualen för PowerScale OneFS CLI.

HDFS-VERSIONSKOMPATIBILITET
PowerScale är kompatibelt med flera versioner av HDFS. Du kan använda dem samtidigt för att komma åt samma datauppsättning. PowerScale kan automatiskt identifiera lämplig HDFS-version per anslutning utan någon konfiguration. Se administrationsmanualen för PowerScale OneFS CLI för en lista över Hadoop-distributioner och -versioner som stöds, eller gå till Hadoop-distributioner och produkter som stöds av OneFS. Versionskompatibilitet innebär att flera Hadoop-miljöer som kör olika versioner av Hadoop kan säkerhetskopiera till ett enda PowerScale-kluster med HJÄLP av HDFS.

Där PowerScale inte har stöd för din Hadoop-version kan du ändå använda DistCp för att säkerhetskopiera och återställa Hadoop-data med PowerScale med hjälp av HFTP. PHD 2.0 och senare stöds till exempel inte på PowerScale OneFS 7.1.1 och tidigare. I den här konfigurationen måste du skapa ett litet Hadoop-kluster med hjälp av en version av Hadoop som PowerScale har direkt stöd för. När Hadoop-klustret har byggts kör du DistCp på det här nya klustret med hjälp av HFTP-protokollet för att få åtkomst till dina källdata på ditt ursprungliga Hadoop-kluster. HFTP-protokollet är ett skrivskyddat filsystem som är kompatibelt med olika versioner av Hadoop. Till exempel:
[gpadmin@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update hftp://phddas2-namenode-0/mydata hdfs://all-nc-s-hdfs/backup/mydata

Storleken på det nya lilla klustret som kör DistCp MapReduce-jobbet beror främst på hur mycket dataflöde som krävs. Om du bara behöver säkerhetskopiera med hastigheten 10 Gbit/s behöver du bara en enda Hadoop-nod. Ingen av dina data lagras i det här lilla Hadoop-klustret så diskkraven är minimala.

Säkerhetskopiera ett Hadoop-kluster till Isilon med inkompatibla protokollversioner
Bild 3: Säkerhetskopiera ett Hadoop-kluster till Isilon med inkompatibla protokollversioner


SLUTSATS

Dell PowerScale är en suverän plattform för Hadoop och andra Big Data-program. Den använder kodning av raderingsskydd för att skydda data med större än 80 % lagringseffektivitet, i motsats till traditionell HDFS med 33 % lagringseffektivitet. Dell PowerScale har flera typer av nodtyper, från kompakt NL400 till högpresterande S210 och X410 däremellan. Med de olika nodtyperna kan du optimera olika PowerScale-nivåer för specifika arbetsbelastningar. Säkerhetskopieringen av traditionella Hadoop-miljöer till PowerScale är enkel att göra och ger det mest användbara HDFS-säkerhetskopieringsmålet.

Article Properties


Affected Product

Isilon, PowerScale OneFS, Isilon with HDFS

Last Published Date

20 Sep 2023

Version

6

Article Type

How To