Apache Beam社区很高兴地宣布2.0.0版本正式可用。这是第一个Apache Beam的稳定版本,社区在声明中表示,在可预见的未来,会保持API稳定,并使Beam适合企业部署。
继续阅读 »
时光荏苒,岁月如梭。不知不觉在阿里这所大学已经度过了3个年头。上周续签了3年合同,是时候总结一番。
饱满的工作
回顾2015年老板的评语,“希望能在一块领域持续沉淀,并且取得成果”。宝宝心里苦,宝宝不说。宝宝也想在一块领域持续沉淀啊,但是15年初团队成员巨变,宝宝就是一块砖,哪里需要哪里搬啊。安排给宝宝的工作根本就不在一个领域内啊,如何沉淀啊?
不管怎么说,无论从职业发展还是业务需要,还是得奔着这个目标去。新的财年,回归实时计算领域,确立了重塑聚划算(现营销中台)实时计算体系的主线任务。和宸潜同学一起,经过奈门摩尔1、2、3期项目的推进,圆满完成了新的实时数据体系,可提供从数据开发,数据服务,数据管理,到数据可视化和数据质
继续阅读 »
在时间序列中,我们需要基于该时间序列当前已有的数据来预测其在之后的走势,三次指数平滑(Triple/Three Order Exponential Smoothing,Holt-Winters)算法可以很好的进行时间序列的预测。
继续阅读 »
新年伊始,回顾过去,展望未来。
这一年工作
年初定下了2015的基调,关注点在“如何把数据和无线产品结合起来,创造价值”。4月份做了【聚划算无线新产品预研】,并完成了无线PUSH项目-购物车商品参聚提醒,效果不错。虽然后来因为组织架构的变动,没能参加到其他产品的开发中,但很高兴的看到文中提到第一类无线新产品优化后转变成流量裂变项目成功实施;第二类无线新产品简化后成为现在的每日爆料。
继续阅读 »
我们可以直接下载rpm或者deb版本进行安装。
1.Download the install package (e.g. infobright-3.4-x86_64.rpm) to the server where you are installing Infobright
继续阅读 »
1.简介
infobright是一个基于MySQL的数据仓库系统,内部是没有索引,采用的Knowledge Grid来组织数据。基本特征如下:
查询性能高:百万、千万、亿级记录数条件下,同等的SELECT查询语句,速度比MyISAM、InnoDB等普通的MySQL存储引擎快5~60倍
存储数据量大:TB级数据大小,几十亿条记录
高压缩比:理论上是40:1,在我们的项目中为10:1,极大地节省了存储空间
基于列存储:无需要物化视图、复杂的数据分区策略、索引
适合复杂的分析性SQL查询:SUM, COUNT, AVG, GROUP BY
没有特殊的数据仓库摸(比如星形模型、雪花模型)要求
和众多的BI套件相容,比如Penta
继续阅读 »
我这里以Mysql 5.1.x为例,Pig的版本是0.8
同时我将数据放在了两个文件,存放在/tmp/data_file_1和/tmp/data_file_2中.文件内容如下:
tmp_file_1:
继续阅读 »
对于开发人员,直接使用Java APIs可能是乏味或容易出错的,同时也限制了Java程序员在Hadoop上编程的运用灵活性。于是Hadoop提供了两个解决方案,使得Hadoop编程变得更加容易。
继续阅读 »
【什么是Hash】
Hash,一般翻译做“散列”,也有直接音译为“哈希”的,就是把任意长度的输入(又叫做预映射, pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,而不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
继续阅读 »
【什么是Bloom Filter】
Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive)。因此,Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下,Bloom Filter通过极少的错误换取了存储空间的极大节省。 这里有一篇关于Bloom Filter的详细介绍,不太懂的博友可以看看。
继续阅读 »