深度学习在文本分类中的应用

2017-08-11 安兴乐-siler 更多博文 » 博客 » GitHub »

原文链接 http://www.lelovepan.cn/2017/08/11/%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB.html
注：以下为加速网络访问所做的原文缓存，经过重新格式化，可能存在格式方面的问题，或偶有遗漏信息，请以原文为准。

字符级别的识别

早期深度学习在自然语言上的应用比较暴力，直接把数据往CNN里怼。文章Text Understanding from Scratch解释了为啥子CNN也能对文本分类：它先对字符集做了一个类似盲文的编码，将字符编码为定长（l）的向量，然后送入CNN网络来分类。

文章厉害的地方在于直接把所有的文本（中文换成拼音）直接怼进去，然后就能取得很厉害的分类结果。表示怀疑，有空了重复实验。还有一篇文章CNN for Sentence Classification稍有改进，把文本进行word embedding后，再送入了CNN。 ,Max-pooling后得到固定长度的feature map。
A C-LSTM for Text Classification更进一步，将卷机后的feature maps送入了window feature sequence后再送入LSTM。
优点在于既能捕获局部特征，又能学习到语义表达。不过针对其他的RNN，CNN变形结构，没有什么明显的优势。

句子级别的识别。

循环（Recurrent）卷机神经网络针对句子过长时，网络无法有效结合上下文信息来表达信息,创造性地提出结合word的上下文来表达每个word的信息一图胜千言
公式表述也很简洁。

文档级别

最近大热的注意力机制很是风骚啊，Hierarchical attention networks for Document Classification 这篇文章最屌的地方在于可以对复杂句进行分类，明明看上去像是褒义的句子，但是它能够辨识出这是反讽！精度上就更不用说了。
。
虽然图画的很复杂，但是代码还真心没有几行的。我们可以再来分析分析它的代码。 太忙了，占坑，过几天再填