分享 Stanford机器学习笔记——机器学习建议

2017-09-20 Alex Sun

1. 模型选择对于一组数据集，可能会选择不同的模型。例如： $$ \begin{array}{} h_\theta(x)=\theta_0+\theta_1x \ h_\theta(x)=\theta_0+\theta_1x+\theta_2x^2 \ h_\theta(x)=\theta_0+\theta_1x+...+\theta_3x^3 \ h_\theta(x)=\theta_0+\theta_1x+...+\theta_{10}x^{10} \ \end{array} $$ 继续阅读 »

分享 台大机器学习基石笔记4-3

2015-11-25 安兴乐-siler

数学机器学习

将概率统计联系到机器学习上表4-1 机器学习与统计中的对比罐子小球机器学习未知的橙色小球比例某一确定的假设在整个X输入空间中，输入向量x满足条件的占整个输入空间的比例抽取的小球∈整个罐子中的小球训练输入样本集整个数据集X 橙色小球假设h作用于此输入向量x与给定的输出不相等绿色小球假设h作用于此输入向量x与给定的输出相等小球样本是从罐子中独立随机抽取的输入样本x是从整个数据集D中独立随机选择的该表来自博客园.杜少继续阅读 »

分享 台大机器学习基石笔记4-1

2015-11-25 安兴乐-siler

数学机器学习

1. 机器学习是不可能的我们先来看一个简单的二分问题: if : 继续阅读 »

分享 台大机器学习基石笔记4-2

2015-11-25 安兴乐-siler

数学机器学习

补救措施（使机器学习成为可能）我们通过上一节课，知道无法精确的通过已知样本来求得适合所有样本集的g。回想曾经学过的概率统计知识，即使我们不能够得到总体情况，但是依然可以通过抽样来“近似”得到总体大致的情况。现在有一个很大的盒子，里面充满了很多很多的橘色和绿色的弹珠。继续阅读 »

分享 Stanford机器学习笔记——Neural Network

2017-09-12 Alex Sun

1. Neural Network $$ a_i^{(j)}$$：第 $$j$$ 层的第 $$i$$ 个单元 $$ \Theta^{(j)} $$：第 $$j$$ 层到第 $$j+1$$ 层映射的权重矩阵继续阅读 »

分享 Stanford机器学习笔记——Regularization

2017-09-10 Alex Sun

1. 过拟合在线性回归和逻辑回归中，容易出现过拟合的情况，即训练模型可以很好地适用于训练集，得到代价函数 $$ J(\theta)≈0 $$，但是这样的模型并无法泛化，对于测试数据，会偏差很大。在样本特征数多，而样本数少的情况下，很容易发生过拟合。解决过拟合的方法：继续阅读 »

分享 Stanford机器学习笔记——SVM

2017-09-14 Alex Sun

1. 优化目标 SVM 即支持向量机（Support Vector Machines），是一种大间距分类算法。回顾在逻辑回归中，一个样本的损失函数为： $$ Cost(h_\theta(x),y)=-ylog(h_\theta(x))-(1-y)log(1-h_\theta(x)) $$ 继续阅读 »

分享 Stanford机器学习笔记——Logistic Regression

2017-09-08 Alex Sun

1. Sigmoid 线性回归针对的是连续值，逻辑回归则是针对离散的分类问题。如图所示：需要注意的是，虽然绘图是在二维平面内，但是数据其实是有三个维度：$$x_1$$，$$x_2$$ 和 $$y$$。假设：继续阅读 »

分享 Stanford机器学习笔记——Linear Regression

2017-09-06 Alex Sun

1. 单一变量线性回归假设： $$ h_\theta(x)=\theta_0+\theta_1x $$ 则 cost function 为： $$ J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2 $$ 继续阅读 »

分享 『 Spark 』11. spark 机器学习

2016-05-16 litaotao

写在前面本系列是综合了自己在学习spark过程中的理解记录＋对参考文章中的一些理解＋个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录，所以一切以能够理解为主，没有必要的细节就不会记录了，而且文中有时候会出现英文原版文档，只要不影响理解，都不翻译了。若想深入了解，最好阅读参考文章和官方文档。继续阅读 »