2014-07-28 walter lee
Drill:大数据的交互式分析 简介 Drill是开源世界中“交互式”的数据分析系统。目标是可以组建超过10000台机器的集群,并且可以在秒级处理PB级别或者万亿条数据。Hadoop作为大数据处理的事实标准,设计目标是实现大数据处理的高吞吐量。MapReduce处理一个数据,需要分钟级的时间。而业界对交互式的低延迟的数据分析和挖掘提出了新的需求,Google的Dremel希望将处理时间缩短到秒级。当前Dremel已经为Google的bigquery提供服务。Drill作为Google Dremel的开源实现,并非Hadoop的替代品,只是其补充。和Dremel一样,Drill可以高效的处理嵌套式数据格式。此外,Drill加入了额 继续阅读 »
2014-07-28 walter lee
系统环境 linux版本:redhat6 jdk:jdk1.7 1.本地安装与测试 1.1安装 1.1.1下载Drill M1 binary release http://people.apache.org/~jacques/apache-drill-1.0.0-m1.rc3/apache-drill-1.0.0-m1-binary-release.tar.gz 1.1.2 解压apache-drill-1.0.0-m1-binary-release.tar.gz tar -zxf apache-drill-1.0.0-m1-binary-release.tar.gz 1.1.3 做 继续阅读 »
2015-02-07 walter lee
简介 Dremel 是Google 的“交互式”数据分析系统。可以组建成规模上千的集群,处理PB级别的数据。MapReduce处理一个数据,需要分钟级的时间。作为MapReduce的发起人,Google开发了Dremel将处理时间缩短到秒级,作为MapReduce的有力补充。Dremel作为Google BigQuery的report引擎,获得了很大的成功。最近Apache计划推出Dremel的开源实现Drill,将Dremel的技术又推到了浪尖上。 继续阅读 »