EPiDA:用于高性能文本分类的简单插件数据增强框架

本文来自NAACL 2022,介绍一种文本分类数据增强框架,就基于已有的数据增强算法,给出通过分离器进行筛选生成样本的方法和条件。本文的作者来自上海复旦和同济的几名同学。

论文地址:EPiDA: An Easy Plug-in Data Augmentation Framework for High Performance Text Classification - ACL Anthology

code 地址:zhaominyiz/EPiDA: Official Code for ‘EPiDA: An Easy Plug-in Data Augmentation Framework for High Performance Text Classification’ - NAACL 2022 (github.com)


一、摘要

本文主要通过自动生成数据来进行数据增强,通过相对熵最大化(REM)和条件熵最小化(CEM)来实现对生成的数据进行筛选,选择其中多样性高和保持其语义一致性的样本,加入分类其进行训练。最后通过实验表明,该方法优于目前sota方法,

二、介绍

介绍了DA (Data Augmentation)基本内容,CV上一般通过图片翻转,裁剪,倾斜来进行DA,而NLP上使用文本同义词替换,删除,增加,交换等方法,但可能会反而降低模型表现,而后使用对抗训练如fgm,awg等方法进行在embeding层进行DA。

本文方法:

在这里插入图片描述

​ 图1. 该方法框架的pipeline,首先使用已有DA方法生成样本,使用SEAS通过分类器的反馈进行 筛选样本,不断提高筛选样本的多样性和质量,最终让分类器性能得到提高的方法。

三、相关工作

这一部分介绍了传统的DA应用在NLP的方法,包括基于规则,基于插值和基于模型的。

  • 基于规则:同义词,删词,改词,增词,错误拼写,句子翻转,替换子结构等。
  • 基于插值:在embedding层或其他隐藏层进行类似cv的插值操作。
  • 基于模型:使用各种seq2seq模型进行“回译”操作,使用GPT等语言模型条件生成,使用GAN进行生成文本等,但速度慢,资源耗费高,用于数据增强不划算。

四、方法

方法简单来说就是对DA生成样本的筛选:1. 多样性;2 . 一致性。

  1. 多样性,将生成的数据y过经过x学习的分类器中,得到loss,loss值大的,相校原来数据多样性增加,也就是相对熵越大
  2. 一致性,计算源数据x与生成数据y,经过模型得到信息的互信息量,互信息越大,两种越一致,也就是条件熵越低。
  3. 最后计算两者得分,进行超参加权求和,进行实现。

在这里插入图片描述

五、实验

实验1

在5个不同分类任务数据集进行实验,评价指标为在bert分类器的f1-score,分别10%原始数据+30%增强数据,和40%原始数据+40%增强数据进行5次重复实验平均值,同时报告了数据困惑度PPL得分。

在这里插入图片描述

实验2

为了确认该插件组件在不同分类器,不同DA算法上都会取得很好的表现,在EDA,CWE,TextAttack上进行DA,同时在bert,cnn,xlnet分类器进行文本分类任务。

在这里插入图片描述

消融实验

在这里插入图片描述

在进行消融研究以检查不同 EPiDA 配置的有效性之前。我们将 CNN 作为分类器,将 EDA 作为 DA 算法,并在 TREC 1% 和 Irony 1% 的五次重复实验中报告 Macro-F1 得分。

其中DA 数据增强,REM 相对熵,CEM 条件熵,OA 在线增强, PT 预训练

六、我的idea

数据增强目的生成多样性高的,同时准确的,不好让模型降低效果的数据。也就是输入端让生成的数据与原数据具有较大的diff,而输出端,也就是模型预测结果应该保持一致。

本文的条件熵和相对熵似乎都是在输出端进行考虑,二者的计算目标会产生冲突,但综合下来,还是稍微让模型提升了些效果的。

输入端两者相差较大,可以在embedding层进行cos相似度较大,然后在底层保证互信息足够大,或者底层的embedding相似度高,不同的评价方式进行评估生成的伪数据与原数据,在过分类器前后的相似度。此时的分类器应该稍微学习好,类似GAN方法的一种交替分类器学习,生成数据筛选器学习的过程。

猜你喜欢

转载自blog.csdn.net/be_humble/article/details/127302591