什么是“数据湖”

什么是“数据湖”

转载请在文首保留原文出处：EMC中文支持论坛https://community.emc.com/go/chinese

介绍

最近围绕“数据湖”这个概念的炒作不断升温，特别是在Pivotal和EMC分别发布了有关数据湖解决方案的案例之后。本文就来带大家了解一下到底什么是数据湖。

更多信息

什么是数据湖:

截至目前Pivotal和EMC对数据湖这一概念的推广是最用力的，但这一概念最早应该是在2011年由CITO Research网站的CTO和作家Dan Woods提出。简单来说，数据湖是一个信息系统，并且符合下面两个特征：

1. 一个可以存储大数据的并行系统

2. 可以在不需要另外移动数据的情况下进行数据计算

目前，Hadoop是最常用的部署数据湖的技术，所以很多人会觉得数据湖就是Hadoop集群。但未来总会有新的技术出现，因此我们要区分出Hadoop和数据湖的不同点。数据湖是一个概念，而Hadoop是用于实现这个概念的技术。

数据湖应用：

Pivotal大数据套件是目前较为完整的数据湖解决方案。它以基于Hadoop的Pivotal HD架构为基础，整合了内存数据库网格软件GemFire XD，具有实时处理HDFS中数据的能力。

GemFire通过平台虚拟化技术，将若干x86服务器的内存集中起来，组成最高可达数十TB的内存资源池，将全部数据加载到内存中，进行内存计算。计算过程本身不需要读写磁盘，只是定期将数据同步或异步方式写到磁盘。GemFire在分布式集群中保存了多份数据，任何一台机器故障，其它机器上还有备份数据，不用担心数据丢失，而且有磁盘数据作为备份。关于Pivotal大数据套件的更多介绍参考：Pivotal HD架构简介、解读Pivotal大数据套件。

在方案中，位于数据湖最底层的则是EMC Isilon Scale-Out存储。Isilon负责承载命名节点跟踪服务器和HDFS数据节点。关于Isilon运行数据湖的优势，参考论坛之前的讨论：【专家问答（翻译稿）】EMC Isilon横向扩展数据湖。一个完整的数据湖架构实例如下：

虚拟环境结构如下：

机会与风险：

虽然数据湖这一概念很火，很多厂商都生成数据湖是抓住大数据机遇的一个重要组成部分，但是厂商们却对是什么构成了数据湖、或者如何从中获得价值没有达成一致。数据湖的重点是保存不同的数据，却忽略了如何使用数据以及为什么要使用数据、监管数据、定义数据和确保数据安全。数据湖概念希望解决一老一新两个问题。老问题是，信息孤岛。你可以将不同来源都集中到一个未经管理的数据湖中，而不是保持数十种独立管理的数据集合。从理论上讲，整合的结果是加强信息利用和共享，同时降低服务器和许可成本。

而新问题，则是涉及到大数据分析。大数据项目要求大量的各种信息。这些信息如此不同，以至于我们不知道这些信息究竟是什么，以及什么时候收到的，就把它归类到某种类似数据仓库的结构化数据，或者关系型数据库管理系统以便未来使用。

因此，数据湖存在着重大风险。最重要的一点，是无法决定数据质量或者利用其他已经发现价值的分析师或者用户在使用湖中相同数据中的经验发现。从定义上看，数据湖可以接收任何数据，不受监督或管理。没有描述性的元数据，和维护它的机制，数据湖会转变成数据沼泽。如果没有元数据，所有对数据的后续使用都意味着从零开始对数据进行分析。

另外一个风险是安全性和访问控制。数据可以在不受内容监管的情况下被放到数据湖中。很多数据湖中数据的使用意味着其隐私和法规要求很可能使其暴露于风险之下。数据湖核心技术的安全能力仍然处于早期萌芽阶段。如果交给非IT人员的话，这些问题将不会得到解决。

最后，性能方面的因素也不容忽视。当然相对而言解决性能问题的方法还是比较多的。

参考

Pivotal大数据套件主页

EMC InFocus博客文章《Is the “Data Lake” the Best Architecture to Support Big Data?》

应用于

数据湖、Isilon

查看全部

找不到事件！

数据存储和保护 - 资料文档

什么是“数据湖”

介绍

更多信息

参考

应用于