初识odps算法
原文链接 http://www.xiangguo.li/algorithm/2015/01/17/odps
注:以下为加速网络访问所做的原文缓存,经过重新格式化,可能存在格式方面的问题,或偶有遗漏信息,请以原文为准。
{% include JB/setup %}
初识ODPS算法
ODPS机器学习算法非常丰富,从功能角度可以划分为以下几大类:
基本的统计、分析和处理
基本统计包括直方图、协方差、连续变量分组统计、交叉表、排行榜等;统计分析包括对应分析、主成分分析(Principal Component Analysis, PCA);数据处理包括数据过滤、采样、归一、合并、分箱等。
回归分析
是一种统计学数据分析方法,目的在于了解两个或者多个变量是否相关,并建立数学模型来观察感兴趣的变量。主要支持两种:线性回归和梯度渐近回归树。
分类预测
分类(Classification)是一种有监督的机器学习方法。利用已知类别的样本训练分类模型,为未知类别的样本预测类别。包括随机森林、逻辑回归、支持向量机(SVM)、朴素贝叶斯、Fisher判别和MDistance判别等。
聚类分析
聚类(Clustering)是一种无监督机器学习方法,只需要把相关的东西聚在一起,而不关心它是什么。因此聚类只需要计算相似度,不需要使用训练数据进行学习。最常用的聚类算法是KMeans(K均值类)。
关联分析
又称关联规则(Association Rules),是数据挖掘的重要课题,用于从大量数据中挖掘出有价值的数据项之间的关联关系,比如:“用户购买了产品A,她会购买产品B的可能性是多少?”关联规则的经典应用是购物篮分析(比如人们耳熟能详的啤酒和尿布案例),超市对顾客的购买记录进行关系规则挖掘,从而发现顾客的购买习惯,把相关商品放在一起,增加销量。比如协同过滤,下面介绍一个阿里的推荐算法。
推荐算法eTREC
是阿里一淘推荐团队研发,其他多个团队共同参与实现的基于物品的协同过滤算法(Item-based Collaborative Filtering)的高效实现,上亿的user和item矩阵在20分钟左右计算完成,支持常用的以及自定义相似度计算方法,目前在阿里内部广泛使用,大幅提升了业务指标。