分享 Share some papers about ASR

2017-05-31 Lu Huang

paper NN ASR

Got from zzw922cn/awesome-speech-recognition-papers. Automatic speech recognition paper roadmap, including HMM, DNN, RNN, CNN, Seq2Seq, Attention Introduction Automatic Speech Recognition has been investigated for several decades, and speech recognition models are from HMM-GMM to deep neural networks today. It's ver 继续阅读 »

分享 深度学习与语音识别：语音识别的基本原理

2017-02-08 Lu Huang

ASR

在阅读《解析深度学习：语音识别实践》时，也会参考一些博客，看到好的也会整理一下分享出来。本文主要通过浅显的语言来展示语音识别的基本过程和原理。本文大部分内容转载至：语音识别的技术原理是什么？。语音识别技术，也被称为自动语音识别AutomaTIc Speech RecogniTIon（ASR），其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。下面我们来详细解读语音识别技术原理。首先，我们知道声音实际上是一种波。常见的mp3等格式都是压缩格式，必须转成非压缩的纯波形文件来处理，比如Windows P 继续阅读 »

分享 深度学习与语音识别：语音识别的基本结构

2017-02-08 Lu Huang

ASR

最近开始阅读《解析深度学习：语音识别实践》，将会把文中的一些总结放到这里和大家分享。今天的这篇文章主要介绍语音识别的基本结构。下图中展示的是语音识别系统的典型结构，语音识别系统主要由图中的四部分组成：信号处理和特征提取、声学模型（AM）、语言模型（LM）和解码搜索部分。信号处理和特征提取部分以音频信号为输入，通过消除噪声和信道失真对语音进行增强，将信号从时域转化到频域，并为后面的声学模型提取合适的有代表性的特征向量。声学模型将声学和发音学（phonetics）的知识进行整合，以特征提取部分生成的特征为输入，并为可变长特征序列生成声学模型分数。语言模型估计通过从训练语料（通常是文本形式）学习词之间的相互关系，来估计假设词序继续阅读 »

分享 Kaldi构建一个简单的英文数字串识别系统

2017-02-22 Lu Huang

kaldi ASR

本文主要参考的是 kaldi-asr.org，主要讲述的是用自己的录音来构建一个数字串识别系统。继续阅读 »

分享 基于PIT的单通道多说话人分离与识别

2018-05-14 Lu Huang

PIT ASR

最近两天再看文章，主要是看了好几篇有关单通道多说话人分离和识别 (Single-Channel Multi-Talker Speech Separation and Recognition) 的文章，而其中主要看的是大佬 Dong Yu 的 Permutation Invariant Training (PIT)。现在简单总结一下。继续阅读 »

分享 kaldi 笔记：部分术语词汇表

2017-02-22 Lu Huang

kaldi ASR

本文主要参考的是 kaldi-asr.org，主要介绍我们在使用 kaldi 的时候可能想要了解的术语词汇表。当然这里介绍的只是一部分例子，相信不久 kaldi-asr.org 就会增加新的内容。 acoustic scale 可以翻译为声学尺度吧，是在解码时使用的。在 C++ 程序中经常被写成 –acoustic-scale，而在其他程序中可能被写作 –acwt。这是对声学对数概率的描述，是一个在 HMM-GMM 和 HMM-DNN 系统中通常使用的系统，以说明帧与帧之间的相关性。其值都成被设置为 0.1，这意味着声学对数概率比语言模型的对数概率具有更低的权重。在打分(score)的脚本中，经常会看到语言模型的权重被搜索的范围继续阅读 »

分享 ubuntu 16.04离线安装kaldi

2017-02-06 Lu Huang

kaldi ASR

在很多科研单位和企业研发部门，服务器是极少被允许连外网的，一般情况下只可以通过内网里的机器访问服务器。由于自己的经历，我曾经接触过这样一台服务器，由于有8张Tesla K80的GPU，我很想在上面安装一个kladi。因此，这里的离线指的是服务器不能访问外网，或者服务器压根不能上网。我下面的操作是在和服务器在同一内网下的Windows机器上进行的，读者也可以直接在服务器上操作（不过一般很难得到许可）。在阅读本文之前，建议先阅读一下我之前写的文章：ubuntu 16.04在线安装kaldi，以熟悉kaldi安装的大概过程。 1. 下载kaldi并上传从kaldi在github的代码仓库（https://github.com/k 继续阅读 »

分享 kaldi 笔记：数据准备

2017-02-22 Lu Huang

kaldi ASR

本文主要参考的是 kaldi-asr.org，主要介绍我们在使用 kaldi 的时候可能用到的数据处理的脚本以及相关文件的信息。简介在运行完 kaldi 提供的例子之后，也许你想用自己的数据来建立一个系统，本节主要介绍如何准备自己的数据。请确保你使用的是例程脚本是最新的脚本。在本文中，你可以参考这些例子中有关数据准备的脚本。在每一个例子的根目录有一个 run.sh，该文件一般在开头会有若干行和数据准备有关的操作。比如在 RM 的例子中有： local/rm_data_prep.sh /export/corpora5/LDC/LDC93S3A/rm_comp || exit 1; utils/prepare_lang.sh 继续阅读 »

分享 178小时开源中文语料库

2017-07-14 Lu Huang

ASR

最近一直做实验，选择的都是TEDLIUM、AMI等开源的英文语料库，以及Switchboard语料库，而在中文上目前开源的也只有我们清华王东老师THCHS-30，之前也在上面做过实验，但是数据集只有30小时，还是不怎么痛快。今天看微信，偶然发现【北京希尔贝壳科技有限公司】开源了一个178小时的中文语料库。简介 178小时中文普通话开源语音数据（AISHELL-ASR0009-OS1）包含400位来自中国不同口音区域的发言人。录音文本包含财经、科技、体育、娱乐等领域。录制过程在安静室内环境中，使用高保真麦克风和录音机进行。此数据库经过专业语音校对人员转写标注，并通过严格质量检验，文本正确率在95%以上。 178-hour Ch 继续阅读 »

分享 ubuntu 16.04在线安装Kaldi

2017-01-01 Lu Huang

ASR kaldi

Kaldi是一个语音识别工具，使用C++开发，基于Apache 许可证，目的是为语音识别研究者提供。本文将介绍在线安装kaldi，为之后的离线安装kaldi做一个准备和基础。 1. 下载kaldi 目前kaldi是开源的，在github上可以clone；clone以后进入该目录，然后查看安装方法。 git clone https://github.com/kaldi-asr/kaldi.git cd kaldi/ cat INSTALL INSTALL文件指示如下： This is the official Kaldi INSTALL. Look also at INSTALL.md for the git mirror 继续阅读 »