中文短文本分类实例十三-SWEM（Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Po）

一.概述

Mechanisms），基于词向量带有池化的简单方法，是Dinghan Shen等2018年的paper。该方案简单有效，embedding + pooling

+ mlp，堪比FastText与传统的CNN、LSTM的encode进行对比，实验表明词嵌入的重要性，以及对现在有的常见任务最重要的

信息，与存在的缺点等。

二. SWEM模型原理等

SWEM方法简单有效，就是一个基于词向量的简单pooling，平均池化（AVG）和最大池化（MAX）无需多说，将平均池化

和最大池化拼接起来也算是一种了。此外，这篇paper中提出的另外一种比较新奇的pooling，也就是层次池化(Hierarchical

Pooling)SWEM-Hierarchical-Pooling方案，首先选择一个为N的滑动窗口对文本进行平均池化（可以理解为Ngram），然后再最

大池化，这么看，也没啥新奇的。

三. SWEM模型结论等

SWEM方法简单有效，谈不上什么创新，不过这篇paper的结论还是比较有意思的。

3.1 word-embedding+pooling对长文本任务有效，而而CNN和LSTM等在短文本任务中效果更佳；

3.2 情感分类任务比主题模型对词序特征更敏感。paper提出的一个简单的分层池层在情感分析任务上

取得了与LSTM/CNN相当的结果;

3.3 自然语言句子配对任务，例如文本蕴涵、文本相似度，简单的词向量池化操作，已经堪比CNN和LSTM了；

3.4 SWEM中的最大池化，对于捕获主题和关键词，效果不错。

希望对你有所帮助!

发布了96 篇原创文章 · 获赞 72 · 访问量 12万+

私信关注