Got from zzw922cn/awesome-speech-recognition-papers.
Automatic speech recognition paper roadmap, including HMM, DNN, RNN, CNN, Seq2Seq, Attention
Introduction
Automatic Speech Recognition has been investigated for several decades, and speech recognition models are from HMM-GMM to deep neural networks today. It's ver
继续阅读 »
在阅读《解析深度学习:语音识别实践》时,也会参考一些博客,看到好的也会整理一下分享出来。本文主要通过浅显的语言来展示语音识别的基本过程和原理。本文大部分内容转载至:语音识别的技术原理是什么?。
语音识别技术,也被称为自动语音识别AutomaTIc Speech RecogniTIon(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。下面我们来详细解读语音识别技术原理。
首先,我们知道声音实际上是一种波。常见的mp3等格式都是压缩格式,必须转成非压缩的纯波形文件来处理,比如Windows P
继续阅读 »
最近开始阅读《解析深度学习:语音识别实践》,将会把文中的一些总结放到这里和大家分享。今天的这篇文章主要介绍语音识别的基本结构。
下图中展示的是语音识别系统的典型结构,语音识别系统主要由图中的四部分组成:信号处理和特征提取、声学模型(AM)、语言模型(LM)和解码搜索部分。
信号处理和特征提取部分以音频信号为输入,通过消除噪声和信道失真对语音进行增强,将信号从时域转化到频域,并为后面的声学模型提取合适的有代表性的特征向量。声学模型将声学和发音学(phonetics)的知识进行整合,以特征提取部分生成的特征为输入,并为可变长特征序列生成声学模型分数。语言模型估计通过从训练语料(通常是文本形式)学习词之间的相互关系,来估计假设词序
继续阅读 »
本文主要参考的是 kaldi-asr.org,主要讲述的是用自己的录音来构建一个数字串识别系统。
继续阅读 »
最近两天再看文章,主要是看了好几篇有关单通道多说话人分离和识别 (Single-Channel Multi-Talker Speech Separation and Recognition) 的文章,而其中主要看的是大佬 Dong Yu 的 Permutation Invariant Training (PIT)。现在简单总结一下。
继续阅读 »
本文主要参考的是 kaldi-asr.org,主要介绍我们在使用 kaldi 的时候可能想要了解的术语词汇表。当然这里介绍的只是一部分例子,相信不久 kaldi-asr.org 就会增加新的内容。
acoustic scale
可以翻译为声学尺度吧,是在解码时使用的。在 C++ 程序中经常被写成 –acoustic-scale,而在其他程序中可能被写作 –acwt。这是对声学对数概率的描述,是一个在 HMM-GMM 和 HMM-DNN 系统中通常使用的系统,以说明帧与帧之间的相关性。其值都成被设置为 0.1,这意味着声学对数概率比语言模型的对数概率具有更低的权重。在打分(score)的脚本中,经常会看到语言模型的权重被搜索的范围
继续阅读 »
在很多科研单位和企业研发部门,服务器是极少被允许连外网的,一般情况下只可以通过内网里的机器访问服务器。由于自己的经历,我曾经接触过这样一台服务器,由于有8张Tesla K80的GPU,我很想在上面安装一个kladi。因此,这里的离线指的是服务器不能访问外网,或者服务器压根不能上网。我下面的操作是在和服务器在同一内网下的Windows机器上进行的,读者也可以直接在服务器上操作(不过一般很难得到许可)。
在阅读本文之前,建议先阅读一下我之前写的文章:ubuntu 16.04在线安装kaldi,以熟悉kaldi安装的大概过程。
1. 下载kaldi并上传
从kaldi在github的代码仓库(https://github.com/k
继续阅读 »
本文主要参考的是 kaldi-asr.org,主要介绍我们在使用 kaldi 的时候可能用到的数据处理的脚本以及相关文件的信息。
简介
在运行完 kaldi 提供的例子之后,也许你想用自己的数据来建立一个系统,本节主要介绍如何准备自己的数据。请确保你使用的是例程脚本是最新的脚本。在本文中,你可以参考这些例子中有关数据准备的脚本。在每一个例子的根目录有一个 run.sh,该文件一般在开头会有若干行和数据准备有关的操作。比如在 RM 的例子中有:
local/rm_data_prep.sh /export/corpora5/LDC/LDC93S3A/rm_comp || exit 1;
utils/prepare_lang.sh
继续阅读 »
最近一直做实验,选择的都是TEDLIUM、AMI等开源的英文语料库,以及Switchboard语料库,而在中文上目前开源的也只有我们清华王东老师THCHS-30,之前也在上面做过实验,但是数据集只有30小时,还是不怎么痛快。今天看微信,偶然发现【北京希尔贝壳科技有限公司】开源了一个178小时的中文语料库。
简介
178小时中文普通话开源语音数据(AISHELL-ASR0009-OS1)包含400位来自中国不同口音区域的发言人。录音文本包含财经、科技、体育、娱乐等领域。录制过程在安静室内环境中,使用高保真麦克风和录音机进行。此数据库经过专业语音校对人员转写标注,并通过严格质量检验,文本正确率在95%以上。
178-hour Ch
继续阅读 »
Kaldi是一个语音识别工具,使用C++开发,基于Apache 许可证,目的是为语音识别研究者提供。本文将介绍在线安装kaldi,为之后的离线安装kaldi做一个准备和基础。
1. 下载kaldi
目前kaldi是开源的,在github上可以clone;clone以后进入该目录,然后查看安装方法。
git clone https://github.com/kaldi-asr/kaldi.git
cd kaldi/
cat INSTALL
INSTALL文件指示如下:
This is the official Kaldi INSTALL. Look also at INSTALL.md for the git mirror
继续阅读 »