2 Bronze

EMC-isilon的HDFS功能适用于什么场景?

BigData云计算平台Hadoop,其中一个设计思路是:“移动计算比移动数据快”的理念。

对应场景:将数据分散到各个节点上,针对本地数据,就地计算。

相反的是:将数据综合在一起,然后使用网络节点获取并计算。

  EMC-isilon的HDFS为Hadoop的统一存储,那么任何计算都会带来流量。比如:1台千兆网卡的服务器,最大网络吞吐量约为125MB/S,仅相当于一块SAS硬盘的能力。传统Hadoop的DataNode通常都有N块盘,网络将成为使用EMC-isilon的最大瓶颈制约。

  另外,本地磁盘的反应延时比网络更小、更容易扩展,这个方面EMC-isilon是怎样考虑的呢?

仅仅只是提供了HDFS接口的统一存储?如果是,那不如直接用NAS原生功能!

那么,EMC-isilon到底适用于什么场景?

0 项奖励
12 回复数
4 Ruthenium

Re: EMC-isilon的HDFS功能适用于什么场景?

你好,胡凯。

从你的自我介绍和分享的文章,可以看出你对大数据和云计算比较有研究,很高兴又一位专业认识能够加入EMC技术社区。虽然我对大数据研究不多,不过也可以和你探讨一下hadoop在Isilon上的一些应用。

Hadoop客户端通过HDFS端口可以访问Isilon群集中的任何一个节点。实际上,OneFS操作系统在每个节点上都应用了HDFS协议的服务端操作,集群中的每个节点都扮演着“名字节点”(namenode)和“数据节点”(datanode)的角色。用户可以通过标准协议(如:SMB、HTTP、FTP、NFS和HDFS)在群集中保存数据,然后通过hadoop网格计算来分析数据。

你之前提到了网络瓶颈,其实这个不用担心。因为Isilon群集将HDFS连接均匀分布到所有节点,每个节点都提供2个1G或者10G的物理连接,群集中节点越多,提供的访问带宽就越大。例如:群集中有15个节点,每个节点上都安装了10G的物理网卡,那么一共就提供了20个10G的访问带宽,这个是非常客观的数字。

2 Bronze

Re: EMC-isilon的HDFS功能适用于什么场景?

感谢 Jeffey 的神速回复!

刚刚 Jeffey 提到的是Isilon节点的带宽,由于Isilon节点可以很多,所以这个瓶颈我们暂时可以忽略。

我的文章可能没有描述清楚,实际上文章所指的是相对每台Hadoop计算节点而言。

比如有两种使用场景:

场景一:传统使用方法,Hadoop计算节点使用大量本地作为DataNode存储。

场景二:Isilon存储为DataNode,Hadoop计算节点使用1根千兆网线通过局域网访问Isilon存储。

场景二中,由于Hadoop计算节点需要实时从Isilon的HDFS接口读写数据,那根千兆线很容易成瓶颈。(即使多根千兆线也不会有质的改善)

而场景一中,通常本地都会挂12块、24块、甚至更多硬盘。如果只是在拷文件,仅一块普通硬盘的读写速度就足够打满1根千兆线。那么本地硬盘越多,IO能力越强。

而Hadoop计算节点与Isilon之间的那个网络链接,瓶颈将是非常明显的。

0 项奖励
4 Ruthenium

Re: EMC-isilon的HDFS功能适用于什么场景?

在第二个场景中,Hadoop客户端并非只能通过Isilon存储中单个节点的物理端口才能访问到这个节点上的DataNode滴!

集群会将HDFS连接请求负载均衡到所有的节点上,这个技术叫smartconnect。在保存Hadoop数据时,OneFS会将数据切成一个个128KB的小块,然后保存在不同的节点上实现冗余,保存节点的个数最多不超过16个。在Hadoop数据保存完毕后,smartconnect会根据应用使用情况进行负载均衡,smartconnect采样指标可以是网络吞吐量、节点CPU使用率或者round-robin等方式。

综上所述,Isilon存储上不存在只使用节点上1根千兆网线的情况存在。

0 项奖励
2 Bronze

Re: EMC-isilon的HDFS功能适用于什么场景?

Jeffey说得没错,Isilon有SmartConnect,而且有多节点。Isilon上确实不存在1根千兆网的问题,但是我们的服务器呢?

接受HDFS数据的服务器只有1根网线可以访问Isilon呀,Isilon带宽再大也流不进来呢!

原来我们的服务器是使用自己的硬盘,现在改使用网络存储。区别就在这里

0 项奖励
4 Ruthenium

Re: EMC-isilon的HDFS功能适用于什么场景?

你好,胡凯。

按照传统使用方法,DataNode都被保存在本地磁盘上,的确可以确保本地计算的高速性。可是别忘记云计算平台Hadoop主机之间是需要进行数据交互,当几台服务器进行数据交互时将会受到更大的物理端口速度限制,那时1G的物理端口带宽既要提供服务器之间的数据交互,同时还需要提供Hadoop客户端的访问,性能自然会更差。你觉得呢?

4 Ruthenium

Re: EMC-isilon的HDFS功能适用于什么场景?

顺便对比一下HDFS和OneFS数据保护。在HDFS协议中,默认块会被复制三份进行保存。而在OneFS系统中,数据会被切成128KB的小块保存在不同节点上,然后使用纠错码技术来确保数据的安全性。所以Isilon的数据保护相对HDFS协议在数据保护时会消耗更少的空间,另外Isilon后端网络使用高速Infiniband技术,避免了过高延时和消耗网络资源。

0 项奖励
2 Bronze

Re: EMC-isilon的HDFS功能适用于什么场景?

感谢 Jeffey 的精彩答复,

Isilon的优点正如Jeffey所言,完全赞同!

关于9楼所述DataNode之间的瓶颈,也正是我所描述的瓶颈。如果存在大的流量,那瓶颈也同样存在。后面我将设法校验,有结果再更新此贴。

0 项奖励
4 Ruthenium

Re: EMC-isilon的HDFS功能适用于什么场景?

期待你校验后的回复,

0 项奖励
4 Ruthenium

Re: EMC-isilon的HDFS功能适用于什么场景?

Isilon目前的主要行业用户在媒体娱乐行业,生命科学行业,石油化工行业等等。 比较理想的使用场景包括:

1,超过50TB存储量需求的Windows, Unix 环境下的大文件和目录                                      

2,NAS 归档文件,主要是超过50TB的影像文件数据                                      

3,虚拟化环境,在Tie 3 和Tie 4级存储上的VMware, NFS only, Dev/Test, Archive and Backup,