Article Number: 000126807

Sauvegarde de Hadoop sur PowerScale

Summary: Cet article décrit les pratiques d’excellence recommandées pour la sauvegarde des environnements Hadoop non Isilon sur un cluster Isilon.

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content

Instructions

Remarque : cette rubrique fait partie de la section Hub d’informations sur l’utilisation de Hadoop avec OneFS.

Pratiques d’excellence pour l’utilisation de DistCp pour la sauvegarde de Hadoop

Cet article décrit les pratiques d’excellence recommandées pour la sauvegarde des environnements non PowerScale Hadoop sur un cluster Dell PowerScale. Avec sa protection des données effacement-codage robuste qui fournit une efficacité de stockage supérieure à 80 %, Dell PowerScale est une cible de sauvegarde idéale pour les données situées sur un cluster Hadoop. DistCp (copie distribuée) est un outil standard fourni avec toutes les versions et toutes les distributions Hadoop. DistCp peut copier des répertoires Hadoop entiers. DistCp s’exécute en tant que tâche MapReduce pour effectuer des copies de fichiers en parallèle, en utilisant vos systèmes de manière exhaustive si nécessaire. Il existe également une option de limitation de la bande passante afin de contrôler l’impact sur les autres tâches.

ENVIRONNEMENT
Cet article repose sur l’environnement de test suivant :

Pivotal HD (PHD) 2.0.1, installé à l’aide de Pivotal Control Center 2.0, tous les paramètres utilisent des valeurs par défaut. HDFS est notamment installé sur les nœuds PHD pour une configuration DAS traditionnelle.
PowerScale OneFS 7.2.0

Étant donné que DistCp est un outil Hadoop standard, l’approche décrite dans ce document s’applique à la plupart, voire à toutes les autres versions et distributions Hadoop.

Lors de la lecture de ce document, supposons que les données à sauvegarder se trouvent sur le cluster PHD Hadoop HDFS dans le répertoire /mydata. Les exemples sauvegardent ces données sur le cluster PowerScale dans le répertoire /ifs/hadoop/backup/mydata.

Figure 1 : Sauvegarde d’un cluster Hadoop sur Isilon

MÉTHODES DE SAUVEGARDE :

LA MÉTHODE LA PLUS SIMPLE

La commande de sauvegarde la plus simple est indiquée ci-dessous :

[gpadmin@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update /mydata hdfs://all-nc-s-hdfs/backup/mydata

Vous pouvez exécuter la commande ci-dessus sur n’importe quel hôte sur lequel est installé le client Hadoop (hadoop). L’utilisateur qui exécute la commande doit disposer des autorisations nécessaires de lecture des fichiers sources et d’écriture des fichiers cibles.

Vous devez spécifier les options -skipcrccheck et -update pour éviter la vérification CRC des fichiers cibles placés sur le cluster PowerScale. PowerScale ne stocke pas le CRC Hadoop et son calcul s’avérerait trop coûteux. Par conséquent, ces options sont requises pour éviter les erreurs liées à la vérification CRC.

Le paramètre suivant « /mydata » est le chemin source sur le cluster Hadoop source. Cela peut également être « / » pour sauvegarder l’intégralité de votre espace de nommage HDFS. Puisque le chemin n’est pas complet, il utilise le NameNode HDFS spécifié dans le paramètre fs.defaultFS de core-site.xml.

Le paramètre final « hdfs://all-nc-s-hdfs/backup/mydata » est le chemin cible sur votre cluster PowerScale. La partie hôte « all-nc-s-hdfs » peut être un nom DNS relatif ou complet tel que all-nc-s-hdfs.exemple.com. Il doit s’agir du nom DNS de la zone SmartConnect pour votre cluster PowerScale. La partie de répertoire « /backup/mydata » est relative au chemin racine HDFS défini dans votre zone d’accès au cluster PowerScale. Si votre chemin racine HDFS est /ifs/hadoop, cette valeur fait alors référence à /ifs/hadoop/backup/mydata.

Les fichiers dont la taille est identique sur les répertoires source et cible sont supposés inchangés et ne sont donc pas copiés. Les horodatages de fichier, notamment, ne sont pas utilisés pour déterminer les fichiers modifiés. Pour plus d’informations sur DistCp, voir le Guide Hadoop DistCp version 2.

AUTORISATIONS DE COPIE
Par défaut, le propriétaire, le groupe et les autorisations des fichiers cibles sont réinitialisés à la valeur par défaut pour les nouveaux fichiers créés par l’utilisateur qui lance DistCp. Tout propriétaire, tout groupe et toute autorisation définis pour le fichier source sont perdus. Pour conserver ces informations des fichiers sources, utilisez l’option -p. Étant donné que l’option -p doit effectuer la commande chown/chgrp, l’utilisateur qui lance DistCp doit être un superutilisateur sur le système cible. C’est précisément le rôle de l’utilisateur root du cluster PowerScale. Par exemple :

[root@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update -pugp /mydata hdfs://all-nc-s-hdfs/backup/mydata

UTILISATION DE SNAPSHOTS POUR VOTRE SOURCE DE SAUVEGARDE
La sauvegarde de jeux de données volumineux peut prendre beaucoup de temps. Les fichiers qui existent au début du processus DistCp lors du balayage de la structure de répertoires peuvent ne plus exister lors de la copie de ce fichier. Ce changement de fichiers génère des erreurs. En outre, une application peut nécessiter une sauvegarde cohérente unique à un point dans le temps pour qu’elle soit utilisable. Pour résoudre ces problèmes, nous vous recommandons de créer un snapshot HDFS de votre source afin de vous assurer que le jeu de données ne change pas pendant le processus de sauvegarde. Cela n’est pas lié à la fonctionnalité SnapshotIQ de votre cluster PowerScale cible.

Pour utiliser des snapshots HDFS, vous devez d’abord autoriser les snapshots pour un répertoire particulier :

[gpadmin@phddas2-0 ~]$ hdfs dfsadmin -allowSnapshot /mydata Allowing snapshot on /mydata succeeded

Immédiatement avant une sauvegarde avec DistCp, créez le snapshot HDFS :

[gpadmin@phddas2-0 ~]$ hdfs dfs -createSnapshot /mydata backupsnap Created snapshot /mydata/.snapshot/backupsnap

Le nom de ce snapshot est backupsnap. Vous pouvez y accéder via le chemin HDFS /mydata/.snapshot/backupsnap. Les modifications apportées à vos fichiers HDFS après ce snapshot ne sont pas répercutées dans la sauvegarde suivante. Vous pouvez sauvegarder le snapshot sur PowerScale à l’aide de la commande suivante :

[gpadmin@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update /mydata/.snapshot/backupsnap hdfs://all-nc-s-hdfs/backup/mydata

Lorsque l’exécution de la commande de sauvegarde est terminée, vous pouvez supprimer le snapshot. Cette opération libère de l’espace utilisé pour conserver les anciennes versions de fichiers modifiés depuis le snapshot :

[gpadmin@phddas2-0 ~]$ hdfs dfs -deleteSnapshot /mydata backupsnap

UTILISATION DES SNAPSHOTS PowerScale POUR VOTRE CIBLE DE SAUVEGARDE
Indépendamment de l’utilisation de snapshots pour votre source de sauvegarde, vous pouvez conserver plusieurs snapshots de votre répertoire cible de sauvegarde pour restaurer des versions plus anciennes des fichiers.

Pour créer des snapshots sur PowerScale, vous devez disposer d’une licence SnapshotIQ. Vous pouvez créer des snapshots à l’aide de l’interface d’administration Web ou de la CLI. Pour créer manuellement un seul snapshot PowerScale à l’aide de la CLI, connectez-vous en SSH à n’importe quel nœud PowerScale et exécutez les opérations suivantes :

all-nc-s-1# isi snapshot snapshots create /ifs/hadoop/backup/mydata --name backup-2014-07-01 --expires 1D --verbose Created snapshot backup-2014-07-01 with ID 6

Vous pouvez ajouter cette commande au processus de sauvegarde décrit dans la section Planification des sauvegardes ci-dessous.

Pour plus d’informations sur les snapshots PowerScale OneFS, consultez le Guide d’administration de la CLI PowerScale OneFS pour votre version de OneFS : Hubs d’informations PowerScale OneFS

RÉPLICATION SYNCIQ POUR PLUSIEURS CLUSTERS PowerScale
Une fois la sauvegarde DistCp sur le cluster PowerScale terminée, vous pouvez utiliser OneFS SyncIQ pour répliquer des snapshots sur un WAN vers d’autres clusters PowerScale. Les snapshots répliqués peuvent fournir un composant polyvalent et efficace de votre stratégie de reprise après sinistre.

Figure 2 : Réplication SyncIQ pour plusieurs clusters Isilon

TRAITEMENT DES FICHIERS SUPPRIMÉS
Par défaut, les fichiers supprimés du cluster Hadoop source ne sont pas supprimés du cluster Hadoop cible. Si vous avez besoin de mettre en place ce comportement, ajoutez l’argument -delete à la commande DistCp. Lorsque vous utilisez cette commande, nous vous recommandons d’utiliser des snapshots sur la cible de sauvegarde pour permettre la récupération des fichiers supprimés.

PLANIFICATION DES SAUVEGARDES
Vous pouvez automatiser et planifier les étapes de sauvegarde d’un cluster Hadoop à l’aide de différentes méthodes. Apache Oozie, souvent utilisé pour automatiser les tâches Hadoop, prend directement en charge DistCp. Vous pouvez également utiliser CRON pour exécuter un script Shell. Pour automatiser l’exécution des commandes dans une session SSH, activez le protocole SSH sans mot de passe. Le SSH sans mot de passe permet à un utilisateur CRON de se connecter à votre client Hadoop et à votre cluster PowerScale (si vous utilisez SnapshotIQ).

MÉTHODES DE RÉCUPÉRATION

DISTCP INVERSÉ

La méthode standard pour restaurer une sauvegarde DistCp depuis PowerScale vers une infrastructure Hadoop traditionnelle consiste à exécuter DistCp dans le sens inverse. Pour ce faire, intervertissez les chemins source et cible.

[gpadmin@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update hdfs://all-nc-s-hdfs/backup/mydata /mydata

Vous pouvez créer un snapshot du répertoire cible afin de pouvoir annuler les erreurs survenues au cours du processus de récupération. Toutefois, tenez compte de l’utilisation supplémentaire du disque nécessaire à la conservation des snapshots.

ACCÈS DIRECT AUX DONNÉES DE SAUVEGARDE AVEC HDFS

Les fichiers cibles de sauvegarde sur PowerScale sont accessibles à partir des applications Hadoop de la même manière que les fichiers sources, en raison de la prise en charge de HDFS par PowerScale. Vous pouvez utiliser vos données de sauvegarde directement, sans avoir à les restaurer dans votre environnement Hadoop source d’origine. Cette fonctionnalité permet d’économiser du temps d’analyse. Par exemple, si vous exécutez une commande MapReduce comme celle-ci :

hadoop jar /usr/lib/gphd/hadoop-mapreduce/hadoop-mapreduce-examples.jar grep /mydata/mydataset1 output1 ABC

Vous pouvez exécuter la tâche MapReduce selon le jeu de données de sauvegarde sur PowerScale à l’aide de la commande suivante :

hadoop jar /usr/lib/gphd/hadoop-mapreduce/hadoop-mapreduce-examples.jar grep hdfs://all-nc-s-hdfs/backup/ /mydata/mydataset1 output1 ABC

Si vous souhaitez spécifier un chemin Hadoop complet au lieu d’utiliser le paramètre fs.defaultFS, contactez votre fournisseur d’applications pour obtenir la procédure détaillée. En outre, un cluster PowerScale conçu pour la sauvegarde et l’archivage plutôt que pour des performances élevées est susceptible de ne pas fournir les mêmes performances que votre environnement Hadoop principal. Nous vous recommandons de procéder à des tests ou de consulter Dell PowerScale pour un dimensionnement approprié.

RESTAURATION À PARTIR DE SNAPSHOTS PowerScale

Vous pouvez restaurer des fichiers à partir d’un snapshot PowerScale précédent. Les fichiers sont disponibles dans le répertoire /ifs/.snapshot. Pour plus d’informations et d’autres options, consultez le Guide d’administration de la CLI PowerScale OneFS.

COMPATIBILITÉ DES VERSIONS HDFS
PowerScale est compatible avec plusieurs versions de HDFS. Vous pouvez les utiliser simultanément pour accéder au même jeu de données. PowerScale peut détecter automatiquement la version HDFS appropriée pour chaque connexion sans aucune configuration. Voir le Guide d’administration CLI de PowerScale OneFS pour consulter la liste des distributions et versions Hadoop compatibles ou accédez à Distributions Hadoop et produits pris en charge par OneFS. La compatibilité des versions signifie que vous pouvez sauvegarder plusieurs environnements Hadoop exécutant différentes versions de Hadoop sur un seul cluster PowerScale avec HDFS.

Si PowerScale ne prend pas en charge votre version Hadoop, vous pouvez toujours utiliser DistCp pour sauvegarder et restaurer vos données Hadoop avec PowerScale via HFTP. Par exemple, PHD 2.0 et versions ultérieures n’est pas pris en charge sur PowerScale OneFS 7.1.1 et versions antérieures. Dans cette configuration, vous devez créer un petit cluster Hadoop à l’aide d’une version de Hadoop directement prise en charge par PowerScale. Une fois le cluster Hadoop créé, exécutez DistCp sur ce nouveau cluster à l’aide du protocole HFTP pour accéder à vos données sources sur votre cluster Hadoop d’origine. Le protocole HFTP est un système de fichiers en lecture seule compatible avec les différentes versions de Hadoop. Par exemple :
[gpadmin@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update hftp://phddas2-namenode-0/mydata hdfs://all-nc-s-hdfs/backup/mydata

La taille du nouveau petit cluster qui exécute la tâche DistCp MapReduce dépend principalement du niveau de débit requis. Si vous avez seulement besoin d’une sauvegarde à 10 Gbit/s de débit, vous n’avez besoin que d’un seul nœud Hadoop. Aucune de vos données n’est stockée sur ce petit cluster Hadoop afin que les exigences envers le disque restent minimes.

Figure 3 : Sauvegarde d’un cluster Hadoop sur Isilon avec des versions de protocole incompatibles

CONCLUSION

Dell PowerScale est une excellente plate-forme pour Hadoop et d’autres applications Big Data. Il utilise le codage d’effacement pour protéger les données avec une efficacité du stockage supérieure à 80 %, contrairement au HDFS traditionnel avec une efficacité du stockage de 33 %. Dell PowerScale propose plusieurs classes de types de nœuds, du NL400 dense au S210 hautes performances, sans oublier le X410 intermédiaire. Les différents types de nœuds vous permettent d’optimiser différents niveaux PowerScale pour des charges applicatives particulières. La sauvegarde des environnements Hadoop traditionnels sur PowerScale s’effectue aisément et permet de recourir à la cible de sauvegarde HDFS utilisable la plus dense.

Sauvegarde de Hadoop sur PowerScale

Summary: Cet article décrit les pratiques d’excellence recommandées pour la sauvegarde des environnements Hadoop non Isilon sur un cluster Isilon.

Article Content

Instructions

Pratiques d’excellence pour l’utilisation de DistCp pour la sauvegarde de Hadoop

MÉTHODES DE SAUVEGARDE :

LA MÉTHODE LA PLUS SIMPLE

MÉTHODES DE RÉCUPÉRATION

DISTCP INVERSÉ

ACCÈS DIRECT AUX DONNÉES DE SAUVEGARDE AVEC HDFS

RESTAURATION À PARTIR DE SNAPSHOTS PowerScale

CONCLUSION

Article Properties

Affected Product

Last Published Date

Version

Article Type

Welcome

Welcome to Dell

Sauvegarde de Hadoop sur PowerScale

Summary: Cet article décrit les pratiques d’excellence recommandées pour la sauvegarde des environnements Hadoop non Isilon sur un cluster Isilon.

Article Content

Instructions

Pratiques d’excellence pour l’utilisation de DistCp pour la sauvegarde de Hadoop

MÉTHODES DE SAUVEGARDE :

LA MÉTHODE LA PLUS SIMPLE

MÉTHODES DE RÉCUPÉRATION

DISTCP INVERSÉ

ACCÈS DIRECT AUX DONNÉES DE SAUVEGARDE AVEC HDFS

RESTAURATION À PARTIR DE SNAPSHOTS PowerScale

CONCLUSION

Article Properties

Affected Product

Last Published Date

Version

Article Type