论文阅读:Neural relation extraction :a survey 综述:神经关系抽取

Neural relation extraction :a survey

综述:神经关系抽取

摘要

  神经关系抽取使用深度学习方法从非结构化文本中发现实体之间的语义关系。在这项研究中,我们对基于神经网络的关系抽取方法进行了全面的综述。我们讨论了现有研究的有利和不合适的方面,并探讨了该领域的其他研究方向和改进思路

关键词

  神经关系抽取,远程监督,深度学习

1.简介

  Web上无限的信息生成和共享为我们提供了丰富的数据,其中大部分构成了非结构化的文本源。为了更好地理解这些数据并在这些数据之间建立关联,我们使用文本中主题(实体)之间的关系事实。为了更全面地了解特定领域,例如生物信息学、金融、社交网络等人,我们需要计算机来处理这些信息。
  文本传递的信息必须以机器可读的格式表示。一种方法是用三元组表示实体及其关系,这表明有关实体的明确事实。三元组(h,r,t)表示实体h与另一个实体t具有关系r。诸如FreeBase[4]和DBpedia[2]之类的知识图谱(KG)就是这种表示形式的示例。它们是有向和带标签的图结构化数据,旨在以三元组形式表达实体的这种显式语义和关系
  关系抽取是自然语言处理(NLP)的子任务,其目的是在给定非结构化文本数据的情况下发现实体对h和t之间的关系r。早期的从文本中抽取关系的工作很大程度上依赖于基于内核和基于特征的方法[38]。但是,最近的研究使用数据驱动的深度学习方法来消除传统的用于关系抽取的NLP方法。Kumar[30]解释了如何将传统的深度学习方法集成到关系抽取中。 Smirnova和Cudre-Mauroux[47]回顾了关系抽取文献,重点关注远程监督。随着对关系抽取的研究数量的增加,需要对当前的神经关系抽取方法的最新技术进行综述
  这项工作对研究领域进行了全面和比较的审查,重点是挑战以及改进思路的部分。第2节介绍了各种关系抽取方法。在第3节中,根据数据监督对神经关系抽取方法进行了分类并进行了说明。第4节描述了该研究领域中的现有挑战。在第5节中,评估了模型评估中常用的数据集。我们将在第6节中讨论未来可能的研究方向和改进思路,并在第7节中完成综述

2.关系抽取方法

  在本节中,我们根据神经关系抽取方法对它们的训练实例表达能力的假设进行分类

2.1 句子级关系抽取

  在这种方法中,使用了基于句子级的带注释的训练数据。注释包含句子三元对齐信息,以便训练集中的句子用三元组标记。训练后,该模型的目标是根据新的实体对预测新的关系。但是,训练数据量不足是一个主要缺点,因为在现实生活中场景中并非总是有标记数据。表1显示了根据OpenNRE框架[20]提供的公共关系抽取数据集中的关系和句子总数。
在这里插入图片描述

2.2 袋级关系抽取

  由于在深度学习中为数据加标签需要大量的人工参与,因此使用外部知识库来增强标记较弱的训练集。知识图谱包含(head, relation, tail)三元组形式的有关实体之间关系的信息。为了创建远程监督数据集(例如NYT),三元组中的实体对与包含自然文本中头实体和尾实体的句子对齐。在这种方法中,由实体对匹配的句子构成了一个袋。因此,这些数据集比较嘈杂。除此之外,它们是不平衡的,也就是说,实例没有在关系之间平均分配
  有多种选择方法来权衡袋实例的表现力。可以选择一个最大值、平均值或注意力选择器,分别考虑最相关的实例、所有实例或所有实例的加权平均值[26、33、45]。有关此方法的更多详细信息,请参见第3.2节

2.3 文档级关系抽取

  句子级方法缺乏掌握整个文档中的实体对关系的功能[41,68],也就是说,它忽略了仅通过理解文档中的多个句子才能推断出的关系。这对于某些领域尤其重要,例如药品文档中的药物副作用关系[55]。Quirk和Poon的研究[41]是第一个利用远程监督解决这个问题的方法,并提出了一个文档级的图形表示形式来抽取更多的关系。DocRED[68]提供了用于文档级关系抽取的基准数据集,其中包含只能从多个句子中抽取的关系。到目前为止,在进行跨句推理时,文档级关系抽取方法的性能落后于人类的性能,因此这种方法需要更多的努力

3.关系抽取的类型

3.1 监督关系抽取

  监督神经关系抽取的文本使用句子级关系抽取方法,该方法需要标记的特定关系的训练数据。关于此任务的许多研究都依赖于根据实体对分配给它们的特定关系对它们进行分类。我们在表2中列出了现有方法的结果。
在这里插入图片描述

3.1.1 传统神经模型的关系抽取

  最近的研究集中用神经网络抽取关系特征,而不是人工[46,50,72]。 Socher等人[50]提出了一种递归深度神经网络模型,该模型允许在解析树上接受单词和短语的组成矢量表示。每个表达式都由向量和矩阵组成,前者对表达式的语义信息进行编码,而后者对影响语法上相邻的表达式的含义进行编码。
  在关系分类中,利用句子绘制关系的全局特征是一项至关重要的任务。因此,Zeng等人[72]利用卷积神经网络可以结合局部特征以获得全局特征。为了减少不必要的人工分类关系对预测的影响,Santos等人[46]引入了卷积深度学习模型,该模型接受成对的排序损失函数,并且比以前的模型获得更好的结果。
TACRED由Zhang等人[77]提出,是基于年度TAC KBP评估创建的关系抽取数据集。在TACRED上训练的LSTM序列模型和实体位置感知注意力机制优于TAC KBP 2015插槽填充系统。
  在Zhang和Wang[75]的工作中,证明了基于RNN的关系抽取模型优于基于CNN的模型,原因是CNNs只能捕获局部特征,而RNNs却能够学习实体之间的远程依赖。
  Xu等人[66]提出的LSTM模型。利用实体之间的最短依赖路径(SDP)。他们证明,与SDP相关的词语有更多信息。依赖树是有向图,因此,需要区分第一个实体是否与第二个实体相关,或者该关系暗示相反的方向。为此,将SPD分为两个子路径,每个子路径均从实体指向祖先节点。
  单向LSTM模型缺乏表达句子的完整顺序信息的能力。Zhang等人[76]使用双向LSTM模型(BLSTM)更好地表示句子。
  有意义的信息可以位于句子中的任何位置。Zhou等人[80]没有使用诸如依赖解析器和命名实体识别器之类的词汇来源的功能,而是将注意力机制结合到BLSTM网络中,以捕获句子的更多信息部分。
  管道方法首先找到实体,然后将实体与合适的关系进行匹配,容易产生错误传播,即第一部分的错误无法在关系分类部分得到缓解。最近的模型研究了实体及其关系的抽取。Wei等人[62]引入了一种分层标记方案,使输入数据和关系三元组的可能性最大化。给定一个句子,首先找到主题,然后为每个关系r标记适当的对象,这些对象也可以是一个空集。通过这种方式可以抽取多个三元组。

3.1.2 预训练语言模型的关系抽取

  迁移学习通常用于深度学习中,将特定任务模型的现有知识迁移到另一个相似或相关任务的模型。以前的模型称为预训练模型,它们可以节省大量时间和计算能力。对于NLP任务,有几种广泛使用的预训练模型,例如BERT[11],Transformer-XL[9]和OpenAI的GPT-2[42]
  关系抽取研究中通常首选的预训练语言模型是BERT,它是一种无监督的转换器,通过训练可以预测给定句子序列的下一个句子,也适用于屏蔽语言模型。BERT的模型捕获给定句子中词的上下文信息,以及在构建整个文本时句子与相邻句子的语义关系。Wu和He[64]调整了预训练BERT模型来处理句子及其实体,与其他传统的深度学习方法相比,他们在SemEval-2010任务8数据集上取得了更好的结果。Soares等人[49]旨在使用BERT从自然文本构建与任务无关的有效关系表示。他们取得了比SemEval-2010任务8上的先前模型以及经过TACRED训练的其他模型更好的结果。Zhao等人[78]在SemEval-2010任务8上取得了最佳结果,他们在BERT嵌入的基础上抽取了图拓扑特征。另一方面,Wei等人[62]也利用了BERT,在远程监督的NYT数据集上取得了最佳结果。

3.2 远程监督的关系抽取

  远程监督将相关知识图谱中的三元组与输入文本中的句子对齐,以便自动生成训练数据远程监督的任务是决定哪个句子支持哪种关系,以及在该句子在多大程度上表达了相关关系。换句话说,远程监督会为带有适当关系的句子加标签,并生成一个容易出错的训练集,该训练集包括可能带有错误标签的实例,进而用于训练关系抽取模型。
  Mintz等人[36]是第一个使用这种技术的。假设是从知识图谱中给出一个三元组,则该三元组的头和尾实体包含的所有句子都表示对应的关系。事实上,这会引起标签错误的问题。例如,考虑一个来自知识库的三元组(Bill Gates,Founder,Microsoft),下面是两个句子:
在这里插入图片描述
在这里插入图片描述
  显然,第一句话表达了创始人关系,而后者则没有。因此,包括第二句话的训练集被认为是嘈杂的或错误地标记的。在远程监督的后续研究中,使用了与原文相同的关于句子对齐的三元组思想。但是,它们在机器学习模型和特征编码器以及句子标记方法上存在着差异。可以在表3中找到现有的远程监督方法的结果。
在这里插入图片描述

3.2.1 句子三元对齐

  有四种不同的框架用于标记具有适当关系的句子,分别是单实例单标签(SISL)、多实例单标签(MISL)、单实例多标签(SIML)和多实例多标签( MIML)学习关于远程监督,实例是指自然文本中的句子,标签是指知识库捕获的关系。单实例模型假设特定关系仅从一个句子派生,而多实例方法则允许一个以上的句子代表一个关系。如第2.2节所述,多实例学习是袋级远程监督方法。在单标签方法中,一个特定的句子仅与一个关系有关,而在多标签方法中,一个句子可以表达多个关系。从这个意义上讲,MIML学习框架更为现实,但是,必须采用有效的排序和去噪策略
  早期的方法使用常规的NLP方法(例如依赖解析和POS标记)在远程监督中进行降噪策略。Riedel等人[45]假设多实例方法很容易产生用于训练的嘈杂标签,如果所有输入句子都没有表达这种关系。Hoffmann等人[26]和Surdeanu等人[52]提出了(多实例、多标签)学习来覆盖重叠的三元组问题。但是,传统的基于NLP的方法会遭受NLP工具生成的错误的传播。
  后来的研究依靠深度学习方法来解决远程监督中的错误标签问题

3.2.2 用深度学习方法解决标签错误的问题

  远程监督会承担注释的负担,但是必须解决标签错误的问题多实例学习[12]的目的是缓解由标签不明确的训练数据引起的问题。为了使远程监督的训练实例降噪,多实例学习已成为关系抽取研究的一种补救方法[26、45、52、71]。Riedel等人[45]尝试使用无向图模型来纠正错误的标签。Hoffmann等人[26]专注于通过概率图模型进行的多实例学习。语料库中的实体对不一定意味着仅一种关系。在这个方向上,Surdeanu等人[52]介绍了一个具有潜在变量的图模型,该模型可以用多实例多标签学习方式联合建模实体和关系。
  Zeng等人[71]提出了第一个用于远程学习的多实例学习的神经网络模型该方法利用分段卷积神经网络绘制关系特征。假设是,在给定关系类型的情况下,至少包含特定实体对的输入句子中的一个是提供的信息,并且它仅考虑训练和预测中最具表现力的句子。显然,该方法忽略了大量数据,这些数据也可能对该关系具有指导意义。
  在Lin等人[33]的工作中,每个句子都根据其表现特定关系的良好程度使用注意力机制进行排序。因此,它抑制了源于远程监督的嘈杂噪声。为了更好地抽取最合适的关系,特别是在模棱两可的情况下,Ji等人[28]制定的实体描述符包括背景信息,这些背景信息对受句子级注意力加权的实例起作用。
  关系不是单独的标签,相反,它们彼此在语义上相关。为了纳入关系相关性涵盖的丰富信息,Han等人[22]在每个实例包上应用层次结构注意。另一种方法是考虑知识图谱所涵盖的信息。 Han等人[21]介绍了一种用于知识图谱和文本的联合表示学习模型,在注意力机制下,它们的相互指导被反馈到模型中,以突出两者的重要特征。为了从知识图谱中受益更多,Wang等人[57]提出了一种新颖的远程监督方法,该方法拒绝了常规远程监督方法所施加的硬标签,而是直接从具有软标签的KG中训练关系分类器。
  最近的研究论文[34,44,79]证实,包括高质量的人工注释通过减轻噪声可以显着改善关系抽取。Zhang等人[79]提出了一种基于强化学习的模式抽取方法,以简化专家的模式编写工作。模式-实例对需要经过人工注释,以用于融合不同的标记方法,例如远程监督和关系模式
  基于不同语言的互补性和一致性,Lin等人[32]结合了单语言和跨语言的注意力,以利用特定语言的功能和跨语言相似的模式。他们将重点关注的句子编码聚合在一起,以在关系预测中进一步使用。这项工作的后继者,Wang等人[59]研究了在关系抽取中加入对抗训练的效果。为了减轻在跨不同语言中找到一致模式时可能出现的能力不足,这项工作定义了一个可以确定每个实例的语言的识别器。

3.2.3 扩展模型

  具有远程监督的关系抽取的研究不仅限于纯深度学习方法。最近的方法通过合并各种NLP工具和机器学习方法来扩展其模型
  对抗学习用于训练对未修改样本和扰动样本均鲁棒的分类器。本质上,它被广泛用于监督学习中。Wu等人[65]在卷积神经网络和递归神经网络体系结构上,实验了在远距离监督中使用对抗训练进行关系抽取的效果,并表明它可以提高两者的性能。远程监督数据的重新分发可以提高关系分类的性能。Qin等人[39]提出了一种用于远距离监督关系抽取数据集的去噪方法,这种情况下,真实的正数比错误的正数更普遍积极。类似于生成对抗网络,此方法重新标记由远程监督提供的带有正标记的实例。另一种方法是考虑强化学习以处理嘈杂的实例。Feng等人[15]将关系抽取问题分解为两个任务:实例选择和关系分类。实例选择是一种强化学习代理,它使用关系分类的弱监督来选择最合适的实例。为了重新分配远程监督的数据,Qin等人[40]结合了强化学习,强化学习的策略是基于单纯的分类表现。
  除了上述利用对抗网络和强化学习的方法外,还有其他高级训练方法可以克服远程监督的弊端。例如,Takamatsu等人[53]利用生成模型来预测在远程监督中标记错误的模式
  与关于句子级去噪的研究不同,Liu等人[35]采用实体对级降噪方法,并为每个实体对袋得出软标签,这些标签在训练过程中可能会发生变化。与上述研究不同的是,Huang和Wang [27]引入的noise-tolerant模型利用了深度残差学习[24]。Zeng等人[73]结合了他们建立了一个文本语料库路径关系的模型,即,该模型可以处理可以由多个句子驱动的关系。

3.3 小样本方法的关系抽取

  小样本学习是一种学习方法,与常规的深度学习方法相比,可用的训练数据量很小。假设可以构建可靠的算法,以对经过大量数据训练的模型实现竞争性能。我们在表4中列出了一些与用于关系抽取的小样本学习相关的研究。出于实验用于关系抽取的小样本学习算法的目的,Han等人[23]提供了 “ FewRel”数据集原型网络[48],它接受原型而不是类,在小样本学习场景中用于关系抽取[17]。Soares等人[49]提出的模型,在小样本关系匹配方面优于人工准确性。 Ye和Ling[69]介绍了一个聚合网络模型和一个多层的匹配机制
在这里插入图片描述

4.关系抽取的挑战

  本节介绍了有关可用数据以及现有上下文和结构方法的神经关系抽取中的挑战

4.1 三元组的重叠

  一个实体(Single Entity Overlap)甚至一个实体对(Entity Pair Overlap)可能暗示一个句子中有多个关系。大多数研究会在关系分类之前识别实体,假设每个实体对都分配给单个关系(请参阅第3.1节)。Zeng等人[74]提出了一种端到端模型,该模型考虑了关系抽取是一个三元组生成问题,并应用复制机制来处理重叠的三元组。 Takanobu等人[54]提出的另一种方法,应用了一个高级关系指示器检测层次结构来挖掘句子中的关系,并使用低级实体提及抽取来将这些关系与相应实体进行匹配。 GraphRel由Fu等人[16]提出,是基于图卷积网络的神经模型,可以共同学习实体和关系。它通过合并单词的区域和顺序依存特征,在解决重叠三元组问题方面优于以前的方法。与前述方法不同,Wei等人[62]提供了一种学习关系三元组的新方法该方法首先识别主题,然后与基于BERT的主题标签模块建立关系,最后通过关系特定的对象模块识别对象

4.2 远程监督的噪声

  关系抽取需要大量带注释的数据。为了解决这个问题,最近的研究结合了远程监督,这带来了自身的弊端。远程监督面临着标签错误的句子的问题,这是由于噪声过多而使训练困难的问题。相关研究试图通过句子级注意力[33]、层次注意力[22]、多语言知识抽取[32],与知识图谱的联合抽取[21]或在关系抽取中引入人工注释[34,44,79] 来解决这个问题。有关这些方法的详细信息,请参见第3.2.2节

4.3 小样本实例

  基于小样本的建模对于NLP任务尤其具有挑战性,因为文本数据嘈杂且人工注释在特定语言的任务中往往会出错[17]。 Han等人[23]研究了用于关系抽取的小样本学习,并为该特定任务提供了数据集。Gao等人[18]通过解决领域适应问题和“none-of-the-above”的案例改进了前一个数据集,该案例为模型增加了额外的类。假设分类模型建立在原型而非类标签的基础上的原型网络使分类能够在每个分类器仅出现很少实例的情况下识别新类[17,48]。

5.数据集和评估

5.1 数据集

  SemEval 2010 Task-8数据集[25]包含2717个句子,与2010年3月5日发行的8000个训练实例和SemEval 2007 Task-4的实例不重叠。数据集具有9个不同的关系类型。
  NYT数据集(NYT10)[45]是通过使Freebase中的关系与the New York Times Annotated Corpus中的句子对齐而创建的。训练和测试集是通过将数据集按特定年份划分而生成的。先前的许多工作都使用NYT数据集进行关系抽取任务,但是他们将数据集作为选项。
  FewRel[18]是一个受监督的数据集,该数据集创建用于使用小样本方法的关系分类方法。首先通过远程监督将大量句子分配给关系,然后由专家对它们进行注释以进行去噪。数据集包含100个关系,每个关系具有700个实例。
  Wiki80是基于FewRel数据集创建的,用于进行小样本关系抽取任务,但是并未将其视为基准。它包含56,000个具有80个不同关系的样本。样本是从Wikidata和Wikipedia收集的。
  TACRED是由斯坦福大学自然语言处理小组[77]开发的带有人工注释的TAC关系抽取数据集。TACRED包含106,264个样本和41个具有“no relation”标签的关系类型,以指示实体之间没有关系。
  ACE-2005多语言训练语料库,用于英语、中文和阿拉伯语[56],对2005年自动内容抽取(ACE)技术评估。数据集包含用于实体、关系和事件的各种类型的带注释的数据。
  WebNLG[19]是为NLP方法生成的另一个数据集。Zeng等人[74]将该数据集用于关系抽取任务。处理后的数据集包含246个关系类型,5019个训练,703个测试和500个验证实例。

5.2 评估

  对于监督的关系分类任务,将使用标准精度、召回率和F量度进行评估。作者通常会为其分类结果提供精确召回曲线。对于远程监督的关系抽取模型,将进行留出法/手动评估。与知识库对齐的文本标签不是gold。因此,在持续评估中,测试集只考虑来自知识库的关系事实为真,新预测的关系为假。由于此假设不能表达现实,因此某些工作(请参见表4)需要进行人工评估,而这需要人工的努力。在小样本学习中,存在以下方式的配置:m way n shot,m表示每个关系(类)的数量,n表示每个关系的标记实例数,在这种情况下判定为句子。在不同的数据配置下测试模型,并给出模型在测试集上的准确性的结果。

6.讨论及常见困难的解决

  神经关系抽取大量地利用了深度学习和语义网的研究。在本节中,我们讨论关于关系抽取的可能的研究方向。

6.1 问题产生和回答

  通过文本产生神经问题是一个新兴的研究领域[13,31,63,70,81]。知识图谱上的问答也是一个经过充分研究的研究主题[43]。结合使用这些研究,可以根据文本和知识库中的问答,有助于发现实体之间的缺失关系。可以使用神经问题生成方法从每个句子中生成适当的问题。使用在知识库上起作用的问答方法将每个问题关联到知识图谱。如果系统收到响应,则可以将响应添加到自然文本中。此外,可以根据问题和答案生成新的三元组,并将其附加到知识库中现有的三元组中。结果,训练数据为深度学习方法提供了更多见解,因为自然文本和知识图谱都通过使用问题生成和问答方法得到了增强。

6.2 改善注意力机制效果的可能解决方案

  在关系抽取中,注意力机制通常最适合根据句子与特定关系的匹配程度来排序的句子。相似度涉及关系与句子的匹配。在这方面,可以探索各种相似性方法。根据关系抽取的结果,可以对重要的权重进行细化,直到算法得出最佳结果为止。
  另一种可能的改进方法是在每个句子、段落或文档上运行事件检测算法,并在句子编码和注意力机制中使用事件。确定句子的事件后,可以为事件类型指定的三元组获得更高的排序,以与句子保持一致。从知识图谱中进行事件检测也是新兴的研究领域[60,61]。

6.3 机器翻译中的多语言双文本挖掘

  可以与远程监督集成的一种可能的研究领域是使用神经网络模型的机器翻译。机器翻译模型需要全面的训练语料库,其中包括使用不同语言排列的句子。因此,句子对齐在机器翻译中很重要。
  Google的通用句子编码器(USE)[7]通过保持整个句子的上下文将句子嵌入向量中,并提供了预训练的模型供公众使用。支持多语言句子编码的USE扩展也已发布[67]。 Facebook还发布了类似的名为Laser的多语言句子编码研究[1]。这些研究使 “双文本挖掘” 成为可能,该技术可以捕获句子的相似度分数,即使它们是不同的语言,也可以匹配具有相似度相似分数的句子。
  也可以使用自然语言生成(NLG)将用于远程监督的三元组转换为句子。存在一些用于从三元组生成自然文本的研究[5、8、14、51、82]。一旦将三元组转换为自然文本,问题就会减少到双文本挖掘,在此可以使用诸如USE和Laser之类的预训练模型。使用NLG和多语言句子编码工具,还可以使知识库和不同语言的自然文本对齐。由于大多数通用知识库都具有更多的英文内容,因此能够将它们与不同语言的句子对齐,可以大大改善远程监督

6.4 释义

  通过在自然文本中用不同的词表达句子,可以实现远程监督的另一项改进。句子的几个释义版本可以与原始句子一起编码到向量空间中。这可以帮助捕获潜在单词,并可以提高与知识库中相关三元组的相似度。这种方法的一个可能的缺点是,在生成大量数据的同时,它会增加误报的数量。补救措施可能是通过强化学习或对抗学习来扩展模型。如第3.2.3节所述,此类方法在噪声过滤方面可带来很好的效果。

6.5 文档级关系抽取的可能解决方案

  如2.3节所述,与人工的性能相比,当前的文档级关系抽取方法给出的结果较差。在这种情况下,增强知识库和自然文本可能是有意义的,因为它有助于使用知识图谱上的神经关系预测方法来查找隐藏的关系。此外,外部本体可以用来增强自然文本,因为本体包括词汇和规则集。还可以采用局部敏感哈希(LSH)方法[3,10]快速确定哪种本体与输入句子、段落或文档完全吻合。

6.6 结合小样本的关系抽取

  关于神经关系抽取的现有方法会过滤掉没有足够训练数据的实例。如第3.3节所述,小样本关系抽取适用于少量训练样本。在实际情况下,可能不需要消除实例。结果,使用远程监督和小样本关系抽取算法的神经关系抽取联合方法可能更适合于现实生活中的场景

7.结论

  在本文综述中,我们总结了神经关系抽取方法在它们的方法和数据监督和数据集的任务。此外,我们解释了常见的挑战,并讨论了可能的解决办法
  为了获得丰富的训练实例,最新研究利用了远程监督。但是,它给数据带来了噪声,这极大地影响了关系抽取模型的训练。此外,由于结构化文本和知识图谱的对齐方式不佳,数据本身具有错误的注释,因此没有明确的负样本。因此,代替监督关系抽取中的句子级方法,开发了多实例方法来进行具有远程监督的关系抽取。而且,用于关系抽取的小样本学习是一个仍有待改进的研究领域。不应放弃有监督的方法。确实,与使用传统的深度学习方法相比,将预训练语言模型合并到有监督的关系抽取中可以显着改善。后来的研究并没有像管道方法那样将实体识别和关系抽取分开对待,而是采用端到端的方法联合抽取实体和关系,这倾向于更好地处理与重叠的三元组和长尾关系相关的问题

猜你喜欢

转载自blog.csdn.net/weixin_42691585/article/details/107283882