2017-12-12 Lu Huang
这两天开始准备在GitHub和别人一起开发,然后fork了别人的项目,然后发现自己git不是很熟练,尤其是协同开发的时候。 今天就简单总结几条命令。 创建分支 一般你fork别人的项目,然后自己clone到本机。一般都是master分支是需要维护的。如果你的master分支和upstream/master(就是你clone的源的master分支是一样),那就很简单,直接以你自己的master为基础,建立新的分支。 继续阅读 »
2017-07-17 Lu Huang
最近使用了Aishell开源的中文语料库,做Kaldi的实验。但是需要自己准备wav.scp、text和corpus.txt等文件,这些都是一些关于文本处理的,自己当时也查阅了很多,现将几个比较常用的总结如下。 vim 继续阅读 »
2017-07-14 Lu Huang
ASR
最近一直做实验,选择的都是TEDLIUM、AMI等开源的英文语料库,以及Switchboard语料库,而在中文上目前开源的也只有我们清华王东老师THCHS-30,之前也在上面做过实验,但是数据集只有30小时,还是不怎么痛快。今天看微信,偶然发现【北京希尔贝壳科技有限公司】开源了一个178小时的中文语料库。 简介 178小时中文普通话开源语音数据(AISHELL-ASR0009-OS1)包含400位来自中国不同口音区域的发言人。录音文本包含财经、科技、体育、娱乐等领域。录制过程在安静室内环境中,使用高保真麦克风和录音机进行。此数据库经过专业语音校对人员转写标注,并通过严格质量检验,文本正确率在95%以上。 178-hour Ch 继续阅读 »
2017-07-13 Lu Huang
经常在朋友圈看到有朋友各种文件误删或者忘记保存,以前总是不屑,终于今天我把自己的一个30+G的工作成果给删了,主要是用Kaldi做识别的一些脚本、特征和模型。十分悔恨,尝试了各种方法,没有恢复。没办法,浪子回头。之后自己想了想,想把每次删除的文件先放到一个文件夹下,然后自己定期手动删除,毕竟误删文件在删除后五分钟内肯定是可以发现,至少我是这样的。 这里主要就是将rm命令用mv表示,这样就不会真正删除文件。 首先在home目录下创建隐藏目录.trash: shell mkdir .trash 接着创建一个移动文件至上述目录的脚本.trash.sh: ```shell !/bin/bash datestr=$(date 继续阅读 »
2017-06-20 Lu Huang
删除a.txt中含abc的行,但不改变a.txt文件本身,操作之后的结果在终端显示 sed -e '/abc/d' a.txt 删除a.txt中含abc的行,将操作之后的结果保存到a.log sed -e '/abc/d' a.txt > a.log * 删除含字符串abc或efg的行,将结果保存到a.log sed '/abc/d;/efg/d' a.txt > a.log 其中,abc也可以用正则表达式来代替。 继续阅读 »
2017-06-05 Lu Huang
我们做机器学习的,首先需要对数据进行处理,但是一般我们拿到的数据的命名常常不是符合自己的需求的,因此通常需要重命名,一个两个文件还好,一堆成千上万自己手动改可能就不好了,这里简单介绍一下如何在 Linux 下完成对数据的批量重命名。 假设有这么一批数据 huanglu@DeepNet1:~/test$ ls I5019_N11.jpg I5160_N119.jpg I5213_N68.jpg I5679_N13.jpg I5057_N75.jpg I5174_N96.jpg I5343_N120.jpg I5733_N52.jpg I5148_N103.jpg I5192_N81.jpg I5415_ 继续阅读 »
2017-06-05 Lu Huang
sge
做语音的人很多都会用到的 kaldi,而在 kaldi 里使用最多的并行计算环境是 Sun Grid Engine(SGE),本人也在自己的服务器上部署了 SGE 环境。 部署 SGE 在管理节点上 shell $ sudo apt-get install gridengine-master gridengine-client 增加管理员(am=add manager) $ sudo qconf -am 删除管理员(dm=delete manager) $ sudo qconf -dm 显示所有管理员(sm=show manager) $ sudo qconf -sm 在所有计算节点上(管理节点 继续阅读 »
2017-06-01 Lu Huang
之前简单介绍过 LSTM,网址,本文将利用 LSTM 来实现一个文本情感分类模型,是基于 Keras 和 Python 的。 概要 本文以词为单位,先分词,然后将每个句子截断为100词(不够则补空字符串),然后将句子以“词-词向量(embedding)”的矩阵形式输入到 LSTM 模型中进行学习分类。 本文使用的语料和参考来源于 文本情感分类(三):分词 OR 不分词. 数据预处理 数据读取与分词 ```python 读取数据并分词 pos = pd.read_excel('pos.xls', header=None) pos['label'] = 1 neg = pd.read_excel('neg.xls', he 继续阅读 »
2017-05-31 Lu Huang
There is a book about Deep Learning, http://www.deeplearningbook.org/, which is wrote by Ian Goodfellow, Yoshua Bengio and Aaron Courville. 继续阅读 »
2017-05-31 Lu Huang
之前简单介绍过 LSTM,网址,本文将利用 LSTM 构建一个故事生成的模型。 数据及其预处理 数据源 我们使用的数据是 Aesop’s Fables 里的一部分内容,如下: long ago , the mice had a general council to consider what measures they could take to outwit their common enemy , the cat . some said this , and some said that but at last a young mouse got up and said he had a proposal to make 继续阅读 »