分享 利用Kaldi做语言模型的自适应

2019-01-10 Lu Huang

Kaldi LM

最近需要做一个语言模型的自适应，所谓自适应，是指我已经有了一个通用的语言模型，比如 librispeech 的 tgsmall，但是我现在的任务大部分是朗读一段内容，我希望提高语言模型在解码中的比重，于是想利用新的语料训练一个新的语言模型，然后和之前的通用的融合。继续阅读 »

分享 利用Kaldi做语言模型的自适应

2019-01-03 Lu Huang

Kaldi LM

最近需要做一个语言模型的自适应，所谓自适应，是指我已经有了一个通用的语言模型，比如 librispeech 的 tgsmall，但是我现在的任务大部分是朗读一段内容，我希望提高语言模型在解码中的比重，于是想利用新的语料训练一个新的语言模型，然后和之前的通用的融合。继续阅读 »

分享 基于PIT的单通道多说话人分离与识别

2018-05-14 Lu Huang

PIT ASR

最近两天再看文章，主要是看了好几篇有关单通道多说话人分离和识别 (Single-Channel Multi-Talker Speech Separation and Recognition) 的文章，而其中主要看的是大佬 Dong Yu 的 Permutation Invariant Training (PIT)。现在简单总结一下。继续阅读 »

分享 GitHub协同开发的一些命令

2017-12-12 Lu Huang

GitHub

这两天开始准备在GitHub和别人一起开发，然后fork了别人的项目，然后发现自己git不是很熟练，尤其是协同开发的时候。今天就简单总结几条命令。创建分支一般你fork别人的项目，然后自己clone到本机。一般都是master分支是需要维护的。如果你的master分支和upstream/master(就是你clone的源的master分支是一样)，那就很简单，直接以你自己的master为基础，建立新的分支。继续阅读 »

分享 在Linux上处理文本的一些命令

2017-07-17 Lu Huang

最近使用了Aishell开源的中文语料库，做Kaldi的实验。但是需要自己准备wav.scp、text和corpus.txt等文件，这些都是一些关于文本处理的，自己当时也查阅了很多，现将几个比较常用的总结如下。 vim 继续阅读 »

分享 178小时开源中文语料库

2017-07-14 Lu Huang

ASR

最近一直做实验，选择的都是TEDLIUM、AMI等开源的英文语料库，以及Switchboard语料库，而在中文上目前开源的也只有我们清华王东老师THCHS-30，之前也在上面做过实验，但是数据集只有30小时，还是不怎么痛快。今天看微信，偶然发现【北京希尔贝壳科技有限公司】开源了一个178小时的中文语料库。简介 178小时中文普通话开源语音数据（AISHELL-ASR0009-OS1）包含400位来自中国不同口音区域的发言人。录音文本包含财经、科技、体育、娱乐等领域。录制过程在安静室内环境中，使用高保真麦克风和录音机进行。此数据库经过专业语音校对人员转写标注，并通过严格质量检验，文本正确率在95%以上。 178-hour Ch 继续阅读 »

分享 关于Linux误删文件

2017-07-13 Lu Huang

linux

经常在朋友圈看到有朋友各种文件误删或者忘记保存，以前总是不屑，终于今天我把自己的一个30+G的工作成果给删了，主要是用Kaldi做识别的一些脚本、特征和模型。十分悔恨，尝试了各种方法，没有恢复。没办法，浪子回头。之后自己想了想，想把每次删除的文件先放到一个文件夹下，然后自己定期手动删除，毕竟误删文件在删除后五分钟内肯定是可以发现，至少我是这样的。这里主要就是将rm命令用mv表示，这样就不会真正删除文件。首先在home目录下创建隐藏目录.trash： shell mkdir .trash 接着创建一个移动文件至上述目录的脚本.trash.sh: ```shell !/bin/bash datestr=$(date 继续阅读 »

分享 Linux Shell 删除文件中含特定字符串的行

2017-06-20 Lu Huang

linux

删除a.txt中含abc的行，但不改变a.txt文件本身，操作之后的结果在终端显示 sed -e '/abc/d' a.txt 删除a.txt中含abc的行，将操作之后的结果保存到a.log sed -e '/abc/d' a.txt > a.log * 删除含字符串abc或efg的行，将结果保存到a.log sed '/abc/d;/efg/d' a.txt > a.log 其中，abc也可以用正则表达式来代替。继续阅读 »

分享 Linux 下批量重命名

2017-06-05 Lu Huang

linux

我们做机器学习的，首先需要对数据进行处理，但是一般我们拿到的数据的命名常常不是符合自己的需求的，因此通常需要重命名，一个两个文件还好，一堆成千上万自己手动改可能就不好了，这里简单介绍一下如何在 Linux 下完成对数据的批量重命名。假设有这么一批数据 huanglu@DeepNet1:~/test$ ls I5019_N11.jpg I5160_N119.jpg I5213_N68.jpg I5679_N13.jpg I5057_N75.jpg I5174_N96.jpg I5343_N120.jpg I5733_N52.jpg I5148_N103.jpg I5192_N81.jpg I5415_ 继续阅读 »

分享 Some Useful Command for SGE

2017-06-05 Lu Huang

sge

做语音的人很多都会用到的 kaldi，而在 kaldi 里使用最多的并行计算环境是 Sun Grid Engine(SGE)，本人也在自己的服务器上部署了 SGE 环境。部署 SGE 在管理节点上 shell $ sudo apt-get install gridengine-master gridengine-client 增加管理员(am=add manager) $ sudo qconf -am 删除管理员(dm=delete manager) $ sudo qconf -dm 显示所有管理员(sm=show manager) $ sudo qconf -sm 在所有计算节点上（管理节点继续阅读 »