开始新对话

未解决

此帖子已超过 5 年

21094

2015年10月19日 23:00

【专家问答-Pivotal特别版】Pivotal BDS开源大数据套件及解决方案

好消息,新一期的“专家问答”活动开启。本期特别开设了Pivotal专场,从10月26日(下周一)至11月8日(周日)期间,特别请来Pivotal的三位专家,和大家一起讨论和分享有关Pivotal BDS开源大数据套件及解决方案的话题

以往所有已完成的“专家问答”活动可参考这个汇总贴

本期讨论主题:Pivotal BDS开源大数据套件及解决方案

本期持续时间:2015年10月26日 – 11月8日。活动结束后,本贴将锁定,有相关的后续问题可开新贴提问。

本期我们邀请到的三位专家是:


许正枝.jpg


Jacky Xu(许正枝)

2013年7月加入日本Pivotal现负责Gemfire/Geode/GemfireXD等高性能IMDG系列产品的技术支。精通面向企业的大型分布式IMDG类型的NoSQL, NewSQL的架构和实施。在加入Pivotal之前曾在日本Vmware, Oracle等公司就职。拥有3年半Gemfire等In memory产品以及4年Oracle Hyperion/OBIEE等BI产品的开发和设计经验 






周继强.png

周继强(David Zhou)

11年数据库相关工作经验。4年从事数据库应用开发,4年担当数据库管理员,3年从事数据库技术支持工作。专长Mainframe平台的DB2Linux平台的Greenplum数据库和Hadoop平台的Hawq。精通数据库的原理,擅长SQL的性能调优,有非常丰富的数据库故障诊断经验。







王凤刚.jpg


           王凤刚

           加入Pivotal支持PHD, HAWQ之前主要工作经历为三星电子的大数据平台(Hadoop)开发工程师,拥有丰富的大数据和云平台开发支持经验。其中包括五年大数据平台开发和技术支持,五年云平台iaas (AWS, Openstack, Cloudstack)开发经验,六年虚拟化产品(Xen,Qemu)开发经验。


和专家交流,与同行畅谈。欢迎大家以回帖的方式就Pivotal BDS这一主题,来积极提问和踊跃发表自己的意见。期待您的参与!

2.1K 消息

2015年10月26日 23:00

那么同样的关系数据库(数据库文件)存在HDFS和传统文件系统上的差别是什么呢?

35 消息

2015年10月26日 23:00

【gpdb】重要通知

gpdb 4.2的技术支持已于2015年9月30日过期,请大家立即升级到gpdb 4.3

gpdb升级是免费的,新版本不需要花钱。

5 消息

2015年10月26日 23:00

Pivotal gemfire的数据的存储方式有多个选择:

1)运行计算,并把数据存储于内存

2)存储倒文件系统或则外部storage(share nothing的架构)

3)存储倒外部的database比如Oracle,MySQL,Postgres等等。

4)存储到HDFS文件系统。Pivotal Gemfire9.0以后支持HDFS Persistence功能。

另外,Pivotal GemfireXD1.x 已经支持HDFS Persistence功能,并且支持HAWQ直接读取GemfireXD数据。

Gemfire/Geode现在加大和其他系统的之间的Integration,

比如Gemfire-GreenPlum Connector(已经Implemented),

Gemfire-Spark Connector(已经Implemented),

Gemfire integrate with lucene, Nagios(正在Implementing),

Gemfire runs on Pivotal Cloud foundary(已经Implemented),

Gemfire-HDFS(正在进行中)

等等。

关于这些Integration的相关信息,可以参考下面link:

https://cwiki.apache.org/confluence/display/GEODE/Roadmap

Gemfire本身是一个支持Transaction,ACID的高性能的分布式内存数据,

现在的版本使用OQL支持SQL。但和传统的关系型数据库有一些观念上的差异。

比如RDBMS是使用表的单元,Gemfire是使用Region的概念。

Pivotal SQLFire(Derby+Gemfire)/ GemfireXD(Derby+Gemfire+HDFS)产品是

支持标准的SQL95,支持distributed transaction的分布式内存数据库。

也就是可以直接把RDBMS的表直接移植到SQLFire/GemfireXD。

ps:

http://gemfirexd.docs.pivotal.io/docs-gemfirexd/about_gemfirexd/topics/c_what_is_elasticsql.html

2.1K 消息

2015年10月26日 23:00

哦,那么hawq在HDFS上能存关系数据库吗?还有gemfire呢?

2.1K 消息

2015年10月27日 00:00

看错了,应该是Greenplum 4.3.3.1 build1

2.1K 消息

2015年10月27日 00:00

谢谢,回答很给力。

2.1K 消息

2015年10月27日 00:00

传统的数据库系统都会把内存作为缓存,查询的时候把数据加载到内存里面,同样的查询第二次访问比第一次要快很多,利用例如FBR、LRFU、ALRFU这类的算法来优化内存利用率。那么gemfire同样把数据存在内存里面(至于是部分还是全部,这点我不太了解)与传统的缓存在数据结构和算法上有什么优势吗?

2.1K 消息

2015年10月27日 00:00

4.3.3.1至少我前几天还碰到过out of memory的问题,有什么好的修复方面的建议吗?

1.png

2.1K 消息

2015年10月27日 00:00

那么4.3.3.1里面的bug是修复了吗?

35 消息

2015年10月27日 00:00

hawq和gpdb功能上基本上没区别,只是存储的文件系统不一样。

HDFS文件本身自带容错功能,默认同时存3份保留在磁盘上,任何一份出错了都可以访问另外两份好的,即冗余性比普通文件系统好。不过一般来说,服务器的磁盘在硬件上都普遍使用raid技术,一定程度上也保障了数据安全。

35 消息

2015年10月27日 00:00

这个是系统配置的问题,系统配置内存的比实际的内存要多。建议你配置的内存和实际物理内存一样大,然后给gpdb的内存为配置内存的80%。

2 消息

2015年10月27日 01:00

請問

1.Hawq 放HDFS 看起來 容錯好了些 ,但空間使用多了些  ,另外多了一層效能是否差了些?這樣解讀對嗎 ?

2.Hawq access HDFS  有透過mpp or map reduce 方式在連嗎 (它其實有三份)?

3.Hawq 可access 原本放在HDFS 上的其它檔案嗎 ?是否也是要用external table 方式access?

5 消息

2015年10月27日 01:00

和传统的RDBMS的内存缓冲技术或则某些改善算法相比,Gemfire等内存数据库有本质的区别。

Gemfire首先是share nothing的分布式的Key-Value(Object)的架构,再加上所有的数据都分布在内存上,读写数据,还有不同node之间的数据同期交换速度都比RDBMS的速度上有质的飞越。基本上是随着node数量的增加thoughput的性能是线性增长的。传统的RDBMS的内存缓冲技术只是在旧框架上的修修补补,没法达到分布式Key Value数据库的线性增长。

35 消息

2015年10月27日 01:00

每次gpdb有新版本发布,会同时发布新版本的Readme,里面会把当前版本修复的一些bug放到"Resolved Issues in Greenplum Database"。比如最新的gpdb 4.3.6.1有下面的这个out of memory修复了Screen Shot 2015-10-27 at 4.54.58 PM.png

5 消息

2015年10月27日 02:00

你好saproot,

1.Hawq 放HDFS 看起來 容錯好了些 ,但空間使用多了些  ,另外多了一層效能是否差了些?這樣解讀對嗎 ?

Hawq在读写文件时,确实会比gpdb要慢,因为需要访问hdfs

2.Hawq access HDFS  有透過mpp or map reduce 方式在連嗎 (它其實有三份)?

Hawq使用一个叫做libhdfs的模块在读写hdfs,这个模块也是开源版本的一部分

3.Hawq 可access 原本放在HDFS 上的其它檔案嗎 ?是否也是要用external table 方式access?

Hawq的数据只是使用hdfs来存储,如果要读取hdfs上面的数据,还是需要通过外表的方式来访问。

找不到事件!

Top