Investigating Capsule Networks with Dynamic Routing for Text Classification

探索使用动态路由的胶囊网络进行文本分类,提出三种策略稳定动态路由来减轻噪音胶囊的分布,这些胶囊可能包含背景信息,或是训练不好。胶囊网络获得很好的分类效果,而且训练多标签的效果好于单标签

1 Introduction

文章或是句子建模是NLP的基础问题,如果组成,层次,结构都考虑的话,很是复杂。如果一个短语“US election”可能分为政治类,但是无法预测为是否是作者喜欢的,或是作者对于这篇文章的态度是更自由的或是更保守的。

早期的文本建模使用BoW的效果比较差,意味着理解单独一个词语获得n元模型是很重要的,所以word embedding获得巨大瞩目是可以理解的。为了使建模获得更好的表示,究竟建模获得了什么。普遍的方法是把文本当做序列,关注中间特征,表示模型包括CNN,LSTM,另一个方法是忽略词的顺序,把他们的组成看成一体,包括概率主题模型,和Earth Mover’s Distance based modeling。

这两种方法的计算视角是不同的,在神经网络中,空间模式聚集在低层,这是为了获得更高一级的表示。所以,使用循环的方式获得文本建模。例如,CNN的卷积探测器抽取一个向量序列的本地特征,并采用max-pooling获得最好的特征,它层次级式地在多种水平上建立了不同的管道抽取特征,但是CNN无法有效在网格上复制特征。

2 Our Model

模型包括两层:n-gram的卷积层,原始的胶囊层,卷积胶囊层,和全连接的胶囊层。另外,提出两个胶囊网络连接这4部分。

2.1 N-gram Convolutional Layer

2.2 Primary Capsule Layer

2.2.1 Child-Parent Relationships

2.3 Dynamic Routing

2.4 Convolutional Capsule Layer

2.5 Fully Connected Capsule Layer

2.6 The Architectures of Capsule Network

Capsule-A和Capsule-B是两种网络,不同之处是如何连接这四部分。

Capsule-A使用embedding层把每一个词映射为300维(V=300)的词向量,传入3-gram的卷积层,32个filter(K1=3 ),stride=1,ReLU激活函数,其他层都是capsule层,由B*d个原始capsule层开始,有32个filter(C=32),再传入3*C*d*d(K2=3 )的卷积胶囊层,有16个filter(D=16),最优是一个全连接胶囊层。

每个胶囊有16维(d=16),他们的norm可以表示现有capsule的概率,胶囊层由转换矩阵连接,每个连接都和路由系数相乘,路由西游动态的由同意机制计算获得。

Capsule-B和Capsule-A相似,不同的是在卷积层使用的n-gram的窗口是3,4,5,最后的全连接胶囊层输入到average-pooling层获得最后的胶囊,所以,capsule-B可以更好捕获文本的表示信息。

3 Experimental Setup

3.1 Experimental Datasets

3.2 Implementation Details

word2vec=300

batch size:AG=50,other=25

优化器:Adam

learning rate=1e-3

3.3 Baseline methods

4 Experimental Results

4.1 Quantitative Evaluation

4.2 Ablation Study

5 Single-Label to Multi-Label Text Classification

与单标签相比,多标签的类别空间从n扩展到2n ,所以需要更多的训练,

5.1 Connection Strength Visualization

为了清楚地显示胶囊层之间的连接强度,我们移除卷积胶囊层并且直接使初级胶囊层和全连接胶囊层,其中初级胶囊表示胶囊形式的N-gram短语。

连接强度显示了每个初级胶囊对于文本类别的重要性,就像一个平行关注机制(parallel attention mechanism)。这个可以让胶囊网络识别文本中的多个类别,即使模型是在单标签文档上进行培训。由于空间有限,我们选择了多个来自Reuters Multi-label的标签文档,其类别标签(即Interest Rates利率和Money/Foreign Exchange货币/外汇交易)通过我们的模型以高置信度(p> 0.8)被正确预测(完全正确),这些数据在表6中有报告出来。像”Interest Rates”和”Money/Foreign Exchange”这类的特定短语用红色突出显示。我们使用标签云来显示利率和货币/外汇类别的3-gram短语。连接强度越大,字体越大。从结果中,我们观察到胶囊网络可以正确识别并划分关于文本类别的重要短语。表6所示(底线)的直方图,用于显示初级胶囊和全连接胶囊之间的连接强度强度。

6 Related Work

提出了一种新型的神经网络,利用胶囊的概念来改善CNN和RNN的表征局限性。(Hinton等,2011)首先介绍了“胶囊”的概念,以解决CNN和RNN的代表性局限性。具有变换矩阵的胶囊允许网络自动学习部分 - 整体关系。因此,(Sabour等,2017)提出了胶囊网络,其用矢量输出胶囊代替了CNN的标量输出特征检测器,并通过协议路由来代替最大池化。

7 Conclusion

 

 

猜你喜欢

转载自blog.csdn.net/qq_27009517/article/details/83986730
今日推荐