[文献阅读]——CLINE: Contrastive Learning with Semantic Negative Examples for NLU

前言

为了解决PLM的低鲁棒性,前人工作的首要目的在于,小幅度改变输入,但不改变标签,存在的问题是:由于NLP的离散性,小幅度的改变可能带来语义上面的很大变化,先前的方法在提高鲁棒性的同时,对于语义的变化不敏感。

本文的贡献:

  • 采用先导实验验证了前人工作中存在的问题
  • 提出了一个既能提高PLM鲁棒性又能提高敏感度的训练方法

方法

样例的生成

给定一个原始句子 x o r i x^{ori} xori,使用spaCy进行分词,再进行POS(part of speech tagging),得到词性。通过更换同义词(synonyms)、上义词(hypernyms)和形态学词(morphological),得到 x s y n x^{syn} xsyn;通过更换反义词和随机词,得到 x a n t x^{ant} xant

训练目标一:MLM

the same as BERT

训练目标二:Replaced Token Detection Objective

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
用于训练模型对于细小改变的敏感度

训练目标三:Contrastive Objective

在这里插入图片描述
仿照InfoNCE,希望使得original和synonyms的相似度足够大,来把”positive pairs“聚集,把"negative pairs"拉开(the idea of contrastive learning)

实验

数据集

IMDB、SNLI、PERSPECTRUM、BoolQ、AG、MR

Contrastive&Adversarial实验

Contrastive衡量了不同的方法在原测试集、contrastive测试集(细小改变,且label也改变)、contrast consistency(前面两个数据集上都预测正确的一个指标)的以上性能(语义敏感度)。表明:1. 本文方法能够提升模型在原测试集上的性能 2. 本文方法能够使得模型对语义敏感

由于本文方法只是在预训练阶段使用了不同的数据、不同的训练目标,依然可以与现有的对抗训练的方法结合。Adversarial比较了BERT、RoBERTa和CLINE在原始情况\FreeLB对抗训练情况下,在Adversarial测试集(细小改变,但label不变) 的性能(鲁棒性)。表明:1. 本文方法鲁棒性更高 2. 本文方法可以进一步结合现有对抗训练的方法达到sota

消融实验

  • 去掉了训练目标二:性能稍微下降,表明总体的性能提升来自于constractive objective,而训练目标二进一步提升了敏感度。
  • 小样本训练:低资源场景下效果依然好
  • 在constractive objective阶段,负样本对采用random-origin,而不是hard的antonyms-origin:hard方法更好

句子语义的探究

比较了不同的方法,对于ori-syn和ori-ant分别的句子相似性。表明:本文方法能够更好的把ori和syn“拉近”,把ori和ant"推远"。

扫描二维码关注公众号,回复: 13232812 查看本文章

但robertTa那里,正确率都低于50%?
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/jokerxsy/article/details/119672593