2017-10-12 Quanyin Tang
本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载.本文由机器之心编译,蒋思源、刘晓坤参与. 本文从最基本的依赖项开始,依次配置了 VS 2015、Anaconda 4.4.0、CUDA 8.0.61 和 cuDNN v5.1 等基本环境,然后再从 Keras 出发安装 Theano、TensorFlow 和 CNTK 以作为其后端.在完成配置深度学习框架后,本文分别利用这三个框架作为 Keras 后端在 CPU 和 GPU 上训练了一个标准的卷积神经网络,完成该简单的卷积网络也就意味着我们完成了深度学习环境的配置. 继续阅读 »
2017-08-11 安兴乐-siler
字符级别的识别 早期深度学习在自然语言上的应用比较暴力,直接把数据往CNN里怼。文章Text Understanding from Scratch解释了为啥子CNN也能对文本分类:它先对字符集做了一个类似盲文的编码,将字符编码为定长(l)的向量,然后送入CNN网络来分类。 文章厉害的地方在于直接把所有的文本(中文换成拼音)直接怼进去,然后就能取得很厉害的分类结果。表示怀疑,有空了重复实验。还有一篇文章CNN for Sentence Classification稍有改进,把文本进行word embedding后,再送入了CNN。 ,Max-pooling后得到固定长度的fea 继续阅读 »
2017-02-08 Lu Huang
ASR
在阅读《解析深度学习:语音识别实践》时,也会参考一些博客,看到好的也会整理一下分享出来。本文主要通过浅显的语言来展示语音识别的基本过程和原理。本文大部分内容转载至:语音识别的技术原理是什么?。 语音识别技术,也被称为自动语音识别AutomaTIc Speech RecogniTIon(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。下面我们来详细解读语音识别技术原理。 首先,我们知道声音实际上是一种波。常见的mp3等格式都是压缩格式,必须转成非压缩的纯波形文件来处理,比如Windows P 继续阅读 »
2017-02-08 Lu Huang
ASR
最近开始阅读《解析深度学习:语音识别实践》,将会把文中的一些总结放到这里和大家分享。今天的这篇文章主要介绍语音识别的基本结构。 下图中展示的是语音识别系统的典型结构,语音识别系统主要由图中的四部分组成:信号处理和特征提取、声学模型(AM)、语言模型(LM)和解码搜索部分。 信号处理和特征提取部分以音频信号为输入,通过消除噪声和信道失真对语音进行增强,将信号从时域转化到频域,并为后面的声学模型提取合适的有代表性的特征向量。声学模型将声学和发音学(phonetics)的知识进行整合,以特征提取部分生成的特征为输入,并为可变长特征序列生成声学模型分数。语言模型估计通过从训练语料(通常是文本形式)学习词之间的相互关系,来估计假设词序 继续阅读 »
2017-04-21 litaotao
写在前面 最近抽时间看一些 AI 方面的东西,说实话,我一开始对这方面其实不是很重视的,毕竟现在发展还是处于很初级的阶段。但因为本身职业是跟金融有关的,最近看了不少产业相关的资料,也经常研究国家在各个产业链上的政策,以及经常看到不少国内外企业在 AI 方面的布局和成绩,觉得这个方向还是可圈可点的。所以还是准备花些时间掌握一些这方面的底层原理,做到知其然知其所以然。 继续阅读 »
2016-10-27 Shawn Ng
window.location.href = "https://www.zybuluo.com/ShawnNg/note/535374" 继续阅读 »
2016-12-14 Shawn Ng
window.location.href = "https://www.zybuluo.com/ShawnNg/note/547365" 继续阅读 »
2018-02-26 Alex Sun
1. 训练/开发/测试集 (1)划分比例: 数据量不大(例如1W条数据)的情况下,可以按照6:2:2进行划分 大数据(例如100W条数据)情况下,可以按照98%,1%,1%进行划分 (2)数据分布 不同数据集应该遵循同样的数据分布。例如图片识别,一部分图片是从网上抓取的,一部分是自己实际拍摄的。那么各个数据集都应当包含这两种图片,并且比例大致相同。 继续阅读 »
2016-01-12 安兴乐-siler
人类视觉系统简直就是一个世界奇迹。看一下接下来的手写体数字序列: ![enter description here][1] 大部分人都能很容易认出这些数字是:504192。你可能觉得这很不靠谱。在我们每个人的大脑中,都有一个初级视觉皮层,也被称为V1。它包含140*10^6个神经元,而这些神经元之间又有百亿种连接。实际上人类视觉活动不是仅仅只有一个V1层,而是由一系列的视觉皮层-V2,V3,V4和V5。这些视觉皮层在逐层地做更复杂的图像处理工作。我们的大脑好比一个超级计算机,通过成千上万年的进化在逐渐地调整参数,来逐渐理解这个可视化的世界。识别手写体数字不是那么容易。我们人类能够很神奇地理解我们的眼睛呈现给我 继续阅读 »
2018-02-23 AnnatarHe
很早之前就想写写区块链和比特币,我对于这些东西是比较关注的。 一些背景 - 深度学习 在去年开始,我花了半年时间在追深度学习相关的东西,学了深度学习的一些原理,概念。然而学了一段时间之后开始认识到,深度学习还是太简单了,它只能做一些非常非常简单而且基础的工作,即便已经很简单了,却还是做不好。比如语音识别,比如图像识别。而类似于什么机器人产生自主意识这种事情基本不可想象,以现在的科技水平来说,基本上是痴人说梦。 继续阅读 »