2017-09-20 Alex Sun
1. 模型选择 对于一组数据集,可能会选择不同的模型。例如: $$ \begin{array}{} h_\theta(x)=\theta_0+\theta_1x \ h_\theta(x)=\theta_0+\theta_1x+\theta_2x^2 \ h_\theta(x)=\theta_0+\theta_1x+...+\theta_3x^3 \ h_\theta(x)=\theta_0+\theta_1x+...+\theta_{10}x^{10} \ \end{array} $$ 继续阅读 »
2015-11-25 安兴乐-siler
将概率统计联系到机器学习上 表4-1 机器学习与统计中的对比 罐子小球 机器学习 未知的橙色小球比例 某一确定的假设在整个X输入空间中,输入向量x满足条件 的占整个输入空间的比例 抽取的小球∈整个罐子中的小球 训练输入样本集 整个数据集X 橙色小球 假设h作用于此输入向量x与给定的输出不相等 绿色小球 假设h作用于此输入向量x与给定的输出相等 小球样本是从罐子中独立随机抽取的 输入样本x是从整个数据集D中独立随机选择的 该表来自博客园.杜少 继续阅读 »
2015-11-25 安兴乐-siler
1. 机器学习是不可能的 我们先来看一个简单的二分问题: if : 继续阅读 »
2015-11-25 安兴乐-siler
补救措施(使机器学习成为可能) 我们通过上一节课,知道无法精确的通过已知样本来求得适合所有样本集的g。回想曾经学过的概率统计知识,即使我们不能够得到总体情况,但是依然可以通过抽样来“近似”得到总体大致的情况。 现在有一个很大的盒子,里面充满了很多很多的橘色和绿色的弹珠。 继续阅读 »
2017-09-10 Alex Sun
1. 过拟合 在线性回归和逻辑回归中,容易出现过拟合的情况,即训练模型可以很好地适用于训练集,得到代价函数 $$ J(\theta)≈0 $$,但是这样的模型并无法泛化,对于测试数据,会偏差很大。 在样本特征数多,而样本数少的情况下,很容易发生过拟合。解决过拟合的方法: 继续阅读 »
2017-09-14 Alex Sun
1. 优化目标 SVM 即支持向量机(Support Vector Machines),是一种大间距分类算法。 回顾在逻辑回归中,一个样本的损失函数为: $$ Cost(h_\theta(x),y)=-ylog(h_\theta(x))-(1-y)log(1-h_\theta(x)) $$ 继续阅读 »
2016-05-16 litaotao
写在前面 本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录,所以一切以能够理解为主,没有必要的细节就不会记录了,而且文中有时候会出现英文原版文档,只要不影响理解,都不翻译了。若想深入了解,最好阅读参考文章和官方文档。 继续阅读 »
2017-09-12 Alex Sun
1. Neural Network $$ a_i^{(j)}$$:第 $$j$$ 层的第 $$i$$ 个单元 $$ \Theta^{(j)} $$:第 $$j$$ 层到第 $$j+1$$ 层映射的权重矩阵 继续阅读 »
2017-09-08 Alex Sun
1. Sigmoid 线性回归针对的是连续值,逻辑回归则是针对离散的分类问题。如图所示: 需要注意的是,虽然绘图是在二维平面内,但是数据其实是有三个维度:$$x_1$$,$$x_2$$ 和 $$y$$。假设: 继续阅读 »
2017-09-14 Alex Sun
1. K-Means K-Means 是一种聚类算法,属于无监督学习。其算法非常简单。 输入是: 聚类数 $$ K $$ 样本 $$ x^{(1)},x^{(2)},...,x^{(m)} $$ 算法过程: 随机初始化 $$ K $$ 个聚类的中心点 $$ \mu_1,\mu_2,...,\mu_K $$ 重复如下过程: 对于每个样本,选择离该样本最近的聚类中心点 $$ \mu_k $$,将该样本标记为第 $$ k $$ 类 对于每个聚类,更新该聚类的中心点 $$ \mu_k $$ 为所有该聚类的点的中心 继续阅读 »