ACL2022:A Simple yet Effective Relation Information Guided Approach for Few-Shot Relation Extraction

A Simple yet Effective Relation Information Guided Approach for Few-Shot Relation Extraction

论文:https://aclanthology.org/2022.findings-acl.62.pdf

代码:https://github.com/lylylylylyly/SimpleFSRE

期刊/会议:ACL 2022

摘要

少样本关系提取旨在通过在每个关系中使用几个标记的例子进行训练来预测句子中一对实体的关系。最近的一些工作引入了关系信息(即关系标签或描述)来帮助基于原型网络的模型学习。然而,他们中的大多数人通常通过设计复杂的网络结构,如生成混合特征,结合对比学习或注意力网络,用关系信息隐含地约束每个关系类的原型。我们认为,关系信息可以更明确、更有效地引入到模型中。因此,本文提出了一种直接添加(direct addition)方法来引入关系信息。具体而言,对于每个关系类,首先通过连接关系的两个视图(即[CLS] token 嵌入和所有token的嵌入的平均值)来生成关系表示,然后直接添加到原始原型中用于训练和预测。在基准数据集FewRel 1.0上的实验结果显示出显著的改进,并取得了与现有SOTA相当的结果,这证明了我们提出的方法的有效性。此外,进一步的分析验证了直接添加方法是整合关系表示和原始原型的一种更有效的方法。

1、摘要

由于劳动力和时间的巨大成本,关系抽取(RE)通常面临标注困难和训练数据短缺的问题。为了解决数据稀缺的问题,少样本关系提取(Few Shot Relation Extraction,FSRE)(Han et al.,2018;Gao et al.,2019a;Qu et al.,2020;Yang et al,2021)任务已成为近年来学术界的研究热点。任务首先是对现有关系类型的大规模数据进行训练,然后快速迁移到少量数据的新关系类型中。

受计算机视觉(CV)社区少样本学习成功的启发(Sung et al,2018;Garcia and Bruna,2018),各种方法被引入了FSRE。其中一种流行的算法是原型网络(Snell et al,2017),它基于元学习框架(Vialta and Drissi,2002;Vanschoren,2018)。详细地说,从包含不相交关系的外部数据中采样的少样本任务的集合被用作模型优化的训练集。对于每个少样本任务,计算每个关系类的中心,并将其用作关系类的原型。然后,可以通过减少查询样本与其对应原型之间的距离来优化模型。给定一个新样本,模型计算哪个类原型最接近新样本,并将其分配给这个关系类。

为了获得更好的结果,许多工作已经利用关系信息(如关系标签或描述)来辅助模型学习。TD proto(Yang et al,2020)通过关系和实体描述增强了原型网络。CTEG(Wang et al,2020)提出了一个模型,该模型学习解耦高共现关系,其中添加了两种类型的外部信息。另一个直观的想法是希望模型能够学习良好的原型或表示,即减少类内的距离,同时扩大不同类之间的距离(Han et al,2021;Dong et al,2021),其中Han et al(2021)引入了一种基于监督的对比学习新方法,该方法通过在模型训练期间利用原型、关系标签和描述来学习更好的原型表示;Dong et al(2021)考虑了一个语义映射框架MapRE,该框架在预训练和微调过程中利用了标签不可知和标签感知知识。

然而,在这些工作如何引入关系信息方面存在两个局限性。首先,它们大多采用隐式约束,如对比学习或关系图,而不是直接融合,后者在面对远程样本时可能很弱。第二,它们通常采用复杂的设计或网络,如混合功能或精心设计的注意力网络,这可能会带来太多甚至有害的参数。因此,在本文中,我们提出了一种简单而有效的方法来将关系信息纳入模型中。具体地,一方面,使用相同的编码器对关系信息和句子进行编码,以便将它们映射到相同的语义空间中。另一方面,我们通过连接两个关系视图(即[CLS] token嵌入和所有token的嵌入的平均值)来生成每个关系类的关系表示,这允许关系表示和原型形成相同的维度。然后,将生成的关系表示直接添加到原型中,以增强模型训练和预测。

图1直观地说明了大多数现有工作和我们提出的方法之间引入关系信息的方式的差异。基于前面工作中提到的两个局限性,我们提供了两个可能的高级想法,说明为什么我们提出的方法应该适用于少样本关系提取。第一个是直接添加是一个更鲁棒的方式在面对远程样本时,可以生成更具有前景的原型,相对于隐式约束。第二,直接添加不会带来额外的参数,并简化了模型。由于可能的过度拟合,较少的参数总是比较多的参数好,尤其是对于较少样本的任务。我们在实验部分进行了实验分析,以便进一步论证。

我们在四种少样本设置下,对流行的FSRE基准FewRel 1.0(Han et al,2018)进行了实验。实验结果显示出相当大的改进,并取得了与现有SOTA相当的结果,这证明了我们提出的方法(即直接添加运算)的有效性。

2、方法

在本节中,我们将详细介绍我们提出的方法。图2显示了整体结构,其中蓝色和黄色线分别表示句子的流动和关系信息。为了将句子的表示和关系信息映射到相同的语义空间中,使用了共享的句子编码器。然后,我们将关系表示的两个视图连接起来,以获得相同的维度原型,并通过直接添加将关系表示集成到原始原型中。

2.1 句子编码器

我们使用一个BERT(Devlin et al,2019)作为编码器来获得支持集 S S S和查询集 Q Q Q的上下文嵌入。对于 S S S Q Q Q中的实例,中间状态是通过连接与个实体提及的起始标记相对应的隐藏状态来获得的,即 [ h e n t i t y 1 ; h e n t i t y 2 ] , h e n t i t y 1 , h e n t i t y 2 ∈ R d [h_{entity_1};h_{entity_2}],h_{entity_1},h_{entity_2} \in \mathbb{R}^d [hentity1;hentity2],hentity1,hentity2Rd,其中 d d d是句子编码器的上下文化表示的大小。然后,我们对 S S S中每个关系类的中间状态进行平均,以获得每个关系类别的初始原型表示。将原型表示集表示为 { P i ∈ R 2 d ; i = 1 , 2 , … , c } \{P_i∈\mathbb{R}^{2d};i=1,2,\ldots,c\} { PiR2d;i=1,2,,c},其中 c c c是关系类的数量。对于每个关系,我们将名称和描述连接起来,并将序列输入BERT编码器。我们将“[CLS]”标记的嵌入,即 { R i v i e w 1 ∈ R d , i = 1 , 2 , … , c } \{R^{view1}_i∈\mathbb{R}^d,i=1,2,\ldots,c\} { Riview1Rd,i=1,2,,c},和所有标记的嵌入的平均值,即 { R i v i e w 2 ∈ R d , i = 1 , 2 , … , c } \{R^{view2}_i∈\mathbb{R}^d,i=1,2,\ldots,c\} { Riview2Rd,i=1,2,,c},作为关系表示的两个不同视图。

2.2 关系表征生成

P i ∈ R 2 d P_i∈\mathbb{R}^{2d} PiR2d用于原型, R i v i e w 1 R^{view1}_i Riview1 R v i e w 2 ∈ R d R^{view2}\in \mathbb{R}^d Rview2Rd用于关系。为了最大限度地减少额外线性层(或参数)的引入,并使直接加法运算成为可能,我们通过简单的级联运算将 R i v i e w 1 R^{view1}_i Riview1 R v i e w 2 R^{view2} Rview2组合在一起,如下所示。
R f i n a l = R v i e w 1 ⊕ R v i e w 2 (1) R^{final}=R^{view1} \oplus R^{view2} \tag{1} Rfinal=Rview1Rview2(1)

R f i n a l ∈ R 2 d R^{final} \in \mathbb{R}^{2d} RfinalR2d,和 P P P一样。

2.3 关系分类

通过将原始原型表示 P P P和关系表示 R f i n a l R^{final} Rfinal直接相加来获得最终原型表示:
P f i n a l = P + R f i n a l = { P i f ∈ R 2 d } (2) P^{final}=P+R^{final}=\{P_i^f \in \mathbb{R}^{2d} \} \tag{2} Pfinal=P+Rfinal={ PifR2d}(2)
该模型使用向量点积法计算查询实例 Q Q Q与每个类原型 { P i f i n a l ∈ R 2 d , i = 1 , 2 , … , c } \{P^{final}_i∈\mathbb{R}^{2d}, i=1,2,\ldots,c\} { PifinalR2d,i=1,2,,c}之间的距离,并选择距离最短的关系类作为预测结果。我们简单地使用交叉熵(CE)损失作为损失函数:
L C E = − log ⁡ ( z y ) (3) L_{CE}=- \log (z_y) \tag{3} LCE=log(zy)(3)
y y y是类标签, z y z_y zy预测为类别 y y y的估计概率。

3、实验

数据集:FewRel 1.0。包含100个关系,700个标注实例。划分成64/16/20(train/validation/test)。

训练:BERT-base-uncased和CP(利用对比学习训练出来的BERT)作为句子编码器。

实验结果

从表1中,我们可以得到三个观察结果。首先,当使用BERT作为基准模型时,我们的方法Ours(BERT)优于现有SOTA,这在表1中基于BERT的模型的第一部分中列出。这些方法中的大多数是用相对复杂的网络结构和实现来设计的。其次,Ours(CP)利用CP作为基准模型,在两种少样本设置(即5-way-1-shot和10-way-1-shot)上优于最先进的HCRP(CP),这也从侧面反映了我们的方法更适合少样本场景。第三,与基本模型(即Proto-BERT和CP)相比,改进相当可观,如表1的最后两行所示。这些观察结果证明了我们提出的方法的有效性。

和现有SOTA模型HCRP相比较:

消融实验

4、总结

在本文中,我们提出了一种简单而有效的基于原型网络的关系信息处理方法。其核心思想是通过直接添加方法引入关系表示,而不是设计复杂的结构。在FewRel 1.0的实验结果与现有SOTA的结果相当,并证明了我们提出的方法的有效性。此外,我们提供了两个高级思想,即明确的约束和较少的参数,关于为什么直接添加如此有效。我们认为,找到全局信息来执行与原始原型的直接相加的想法是通用的,并且可以扩展到其他可以基于原型网络建模的少样本任务。

由于引入关系的直接加法方法简单高效,我们也认为未来的工作应该更多地关注生成更好的关系表示,而不是设计关系和原型之间的融合方法。

相关文献

最近工作

猜你喜欢

转载自blog.csdn.net/qq_45041871/article/details/130602802
今日推荐