TextCNN模型原理

TextCNN模型

CNN，卷积神经网络，最初主要应用于图像识别领域，以局部权值共享的特殊结构隐式地学习大量的输入与输出之间的映射关系，而不用显式地进行特征抽取，在CV与NLP的任务中取得很好的效果。

图像领域中，相关指滤波器模板移过图像并计算每个位置乘积之和的处理，卷积的机理相似，但滤波器首先要旋转180度。由于旋转对参数求解没有帮助，因此在神经网络中用相关代替卷积操作。

CNN做NLP任务时，基本模型架构如下：

输入：句子的矩阵表示，若句子长度为 $n$ ，词向量为 $x_i$ ，长度为 $k$ ，则为一个 $n * k$ 的矩阵，表示为：
$x_{1:n}=x_1 \oplus x_2 \oplus ... \oplus x_n，\oplus是连接运算$

词向量：把对词的高维、稀疏的1-of-V表示通过一个隐藏层映射为低维、稠密的向量，使得相似的词欧式距离或余弦距离更近。

卷积层：使用多个卷积核（feature extractor） $w \in R^{hk}$ ， $h、k$ 分别为卷积核的高度与宽度，即作用于 $h$ 个单词上，得到新特征 $c_i$ ，有：
$c_i = f(w \cdot x_{i:i+h-1}+b)$
卷积核作用到任意可能的窗口（任意连续的h个单词），即对 $x_{1:n}$ 来说：
$卷积核w \in R^{hk}作用于[x_{1:h}, x_{2:h+1},...,x_{n-h+1:n}]\\得到特征映射c=[c_1,c_2,...,c_{n-h+1}],c\in R^{n-h+1}$
卷积核只在高度上滑动，在宽度上和word vector的维度一致，也就是说每次窗口滑动过的位置都是完整的单词，不会将几个单词的一部分“vector”进行卷积，这也保证了word作为语言中最小粒度的合理性

卷积层之后一般会增加BN层和激活层ReLU
池化层：使用Max-pooling，只取特征向量中最大的值作为最终的特征，即
$令\hat c=max(c)作为相应过滤器得到的特征$
这样，我们从每个过滤器中得到一个特征，拼接得到固定维度的特征，作为下一层的输入
全连接层：对前一层的输出， $z=[\hat c_1, \hat c_2, ..., \hat c_m]$ ，随机丢弃掉一些特征后，再进行运算，即
$y=w\cdot (z \circ r)+b, 其中\circ是element-wise的乘法运算，r \in R^m是每个元素取1的概率为p的向量$
输出层：softmax等操作得到最终结果

如下图，假设使用3个window size，每个window size有两个filter，则卷积过程包括：

对于图像或句子进行平移后，相同的卷积核进行卷积与池化操作后仍然得到相同的结果。

卷积核在遍历图像或句子的每个区域时，权值不变，可以把每个卷积核看成一种特征，则卷积后的结果相当于时整个对象的特征提取。

特征降维、防止过拟合、固定输出维度。