EPiDA：用于高性能文本分类的简单插件数据增强框架

本文来自NAACL 2022，介绍一种文本分类数据增强框架，就基于已有的数据增强算法，给出通过分离器进行筛选生成样本的方法和条件。本文的作者来自上海复旦和同济的几名同学。

本文主要通过自动生成数据来进行数据增强，通过相对熵最大化（REM）和条件熵最小化（CEM）来实现对生成的数据进行筛选，选择其中多样性高和保持其语义一致性的样本，加入分类其进行训练。最后通过实验表明，该方法优于目前sota方法，

介绍了DA （Data Augmentation）基本内容，CV上一般通过图片翻转，裁剪，倾斜来进行DA，而NLP上使用文本同义词替换，删除，增加，交换等方法，但可能会反而降低模型表现，而后使用对抗训练如fgm，awg等方法进行在embeding层进行DA。

本文方法：

在这里插入图片描述

图1. 该方法框架的pipeline，首先使用已有DA方法生成样本，使用SEAS通过分类器的反馈进行筛选样本，不断提高筛选样本的多样性和质量，最终让分类器性能得到提高的方法。

这一部分介绍了传统的DA应用在NLP的方法，包括基于规则，基于插值和基于模型的。

方法简单来说就是对DA生成样本的筛选：1. 多样性；2 . 一致性。

在这里插入图片描述

在5个不同分类任务数据集进行实验，评价指标为在bert分类器的f1-score，分别10%原始数据+30%增强数据，和40%原始数据+40%增强数据进行5次重复实验平均值，同时报告了数据困惑度PPL得分。

在这里插入图片描述

为了确认该插件组件在不同分类器，不同DA算法上都会取得很好的表现，在EDA，CWE，TextAttack上进行DA，同时在bert，cnn，xlnet分类器进行文本分类任务。

在这里插入图片描述

在这里插入图片描述

在进行消融研究以检查不同 EPiDA 配置的有效性之前。我们将 CNN 作为分类器，将 EDA 作为 DA 算法，并在 TREC 1% 和 Irony 1% 的五次重复实验中报告 Macro-F1 得分。

其中DA 数据增强，REM 相对熵，CEM 条件熵，OA 在线增强， PT 预训练

数据增强目的生成多样性高的，同时准确的，不好让模型降低效果的数据。也就是输入端让生成的数据与原数据具有较大的diff，而输出端，也就是模型预测结果应该保持一致。

本文的条件熵和相对熵似乎都是在输出端进行考虑，二者的计算目标会产生冲突，但综合下来，还是稍微让模型提升了些效果的。

输入端两者相差较大，可以在embedding层进行cos相似度较大，然后在底层保证互信息足够大，或者底层的embedding相似度高，不同的评价方式进行评估生成的伪数据与原数据，在过分类器前后的相似度。此时的分类器应该稍微学习好，类似GAN方法的一种交替分类器学习，生成数据筛选器学习的过程。