开始新对话

未解决

此帖子已超过 5 年

1067

2016年2月3日 01:00

HDFS环境下的Isilon OneFS配置调优(四)

HDFS环境下的Isilon OneFS配置调优(四)

转载请在文首保留原文出处:EMC中文支持论坛https://community.emc.com/go/chinese image001.gif

介绍

      EMC Isilon是企业级的横向扩展NAS存储。它支持多协议的单命名空间访问,如HDFSNFSSMBFTPHTTP等。除此以外,它还兼容wire-levelHDFSIsilon还有很多安全特性,如DAREWORMCompliance Mode (合规模式)等。

      本文将继续介绍HDFS环境下的Isilon OneFS配置调优,包括与DASNAS的互连以及使用DistCp备份Hadoop数据到Isilon群集上。

更多信息

DASNAS的互连:

      这一章节我们将介绍如何配置Apache Hadoop使其指向两个命名空间(Namespace),然后将它们聚合在Hadoop的虚拟文件系统viewFS中。相较于HDFS 1.0版本,2.0版本中新增的指向到两个命名空间的能力是一大改进。它是简化迁移、实现数据分层和其他存储功能的基础。

      下面的例子假设你拥有两个基于DAS的命名空间,以及一个拥有三个数据节点的Hadoop计算群集。你还有一个Isilon群集,上面Hadoop用户和群组帐号都已经配置完毕。

      需要注意的是下面大多数设置参数都与你实际环境不同,包括属性、目录、名称和值等等。你还需要重启客户端上一些受到影响的服务,特别是dfs

      首先,添加如下代码至hdfs-site.xml中,然后将配置文件复制到所有客户端:

<property>

<name>dfs.replication

<value>1

<property>

<name>dfs.permissions

<value>false

<property>

dfs.federation.nameservices

<value>ns1,ns2

<property>

dfs.namenode.rpc-address.ns1

<value>apache2-1:9001

<property>

dfs.namenode.rpc-address.ns2

<value>apache2-2:9001

      然后再DAS命名空间中创建需要成为挂载点的子目录。在DAS一号命名空间上:

hadoop fs -mkdir hdfs://apache2-1:9001/home

hadoop fs -mkdir hdfs://apache2-1:9001/tmp

      在DAS二号命名空间上:

hadoop fs -mkdir hdfs://apache2-2:9001/home

      接着修改core-site.xml添加SmartConnect zone的名称:

<property>

<name>fs.defaultFS

<value>viewfs:///

<property>

fs.viewfs.mounttable.default.link./NN1Home

<value>hdfs://apache2-1:9001/home

<property>

fs.viewfs.mounttable.default.link./NN2Home

<value>hdfs://apache2-2:9001/home

<property>

fs.viewfs.mounttable.default.link./ tmp

<value>hdfs://apache2-1:9001/tmp

<property>

fs.viewfs.mounttable.default.link./ isilon hdfs://Isilon.example.com:8020/

      最后,复制core-site.xml到所有客户端,并重启服务:

sbin/stop-all.sh

sbin/start-all.sh

使用DistCp备份Hadoop数据:

      从完整的数据保护架构和超过80%存储效率角度来看,EMC Isilon是理想的Hadoop群集备份目的设备。你可以使用标准的Apache Hadoop工具DistCp来备份Hadoop群集上的数据。DistCpMapReduce作业的方式运行,可以并行复制整个Hadoop目录到Isilon群集中。工具还可以限制传输带宽,以控制对其他作业的影响。目录权限的复制同样也是支持的。关于DistCp的更多信息,可以参考:http://hadoop.apache.org/docs/current/hadoop-distcp/DistCp.html

figure 1.jpg

      当你备份完Hadoop的数据后,还可以考虑使用Isilon SnapshotIQ来创建备份目录的快照。这样可以按需恢复过去版本的文件。

figure 2.jpg

      Isilon群集中的备份文件可以像源文件一样被Hadoop应用访问。因此为了节省时间,你可以通过OneFS HDFS接口来分析备份的数据,而无需事先将数据恢复至原始的Hadoop环境。比如你原先使用如下MapReduce命令,则可以通过修改命令中的路径来直接分析Isilon群集中的备份数据:

hadoop jar /usr/lib/gphd/hadoop-mapreduce/hadoop-mapreduce-examples.jar grep /mydata/mydataset1 output1 ABC

      路径修改后:

hadoop jar /usr/lib/gphd/hadoop-mapreduce/hadoop-mapreduce-examples.jar grep hdfs://myisiloncluster01/backup/ /mydata/mydataset1 output1 ABC

      有关将非Isilon Hadoop环境数据备份至Isilon群集的最佳实践,可以参考博客文章:Backing Up Hadoop To Isilon

figure 3.jpg

参考

EMC技术白皮书 《EMC Isilon Best Practices for Hadoop Data Storage on OneFS

Isilon 博文:Best Practices for using DistCp to Back UpHadoop

应用于

Isilon OneFS

没有回复!
找不到事件!

Top