2019-01-03 Lu Huang
最近需要做一个语言模型的自适应,所谓自适应,是指我已经有了一个通用的语言模型,比如 librispeech 的 tgsmall,但是我现在的任务大部分是朗读一段内容,我希望提高语言模型在解码中的比重,于是想利用新的语料训练一个新的语言模型,然后和之前的通用的融合。 继续阅读 »
2019-01-10 Lu Huang
最近需要做一个语言模型的自适应,所谓自适应,是指我已经有了一个通用的语言模型,比如 librispeech 的 tgsmall,但是我现在的任务大部分是朗读一段内容,我希望提高语言模型在解码中的比重,于是想利用新的语料训练一个新的语言模型,然后和之前的通用的融合。 继续阅读 »
2017-02-08 Lu Huang
ASR
最近开始阅读《解析深度学习:语音识别实践》,将会把文中的一些总结放到这里和大家分享。今天的这篇文章主要介绍语音识别的基本结构。 下图中展示的是语音识别系统的典型结构,语音识别系统主要由图中的四部分组成:信号处理和特征提取、声学模型(AM)、语言模型(LM)和解码搜索部分。 信号处理和特征提取部分以音频信号为输入,通过消除噪声和信道失真对语音进行增强,将信号从时域转化到频域,并为后面的声学模型提取合适的有代表性的特征向量。声学模型将声学和发音学(phonetics)的知识进行整合,以特征提取部分生成的特征为输入,并为可变长特征序列生成声学模型分数。语言模型估计通过从训练语料(通常是文本形式)学习词之间的相互关系,来估计假设词序 继续阅读 »