实体-关系联合抽取:CoType: Joint Extraction of Typed Entities and Relations with Knowledge Bases

文章地址:https://arxiv.org/pdf/1610.08763.pdf

文章标题:CoType: Joint Extraction of Typed Entities and Relations with Knowledge Bases(联合提取类型化实体和与知识库的关系)WWW2017

文章源代码:https://github.com/INK-USC/DS-RelationExtraction

ABSTRACT

从文本中提取兴趣类型的实体和关系对于理解大量文本非常重要。传统上,实体关系提取系统依靠人工-公司进行训练,并采用增量管道。此类系统需要额外的人类专业知识才能移植到新的领域,而且容易出现管道下级联的错误。知识基础(即远程监督)。由于我们的类型标记算法——通过远程监督是上下文无关的,嘈杂的训练数据,给任务带来了独特的挑战。我们提出了一种新的域独立框架,称为COTYPE它运行一种数据驱动的文本分割算法来提取实体提及,并共同将实体提及、关系提及、文本特征和类型-标签嵌入到两个低维空间(分别用于实体和关系提及)。其中,在每个空间中,类型为 " 接近" 的对象也将具有类似的表示形式。COTYPE,然后使用这些学习的嵌入,估计测试的类型(不可链接)提及。我们制定了一个联合优化问题,从文本公司和知识库中学习嵌入,采用针对噪声标记数据的新型"部分标签丢失函数",并引入对象"翻译"函数来捕获交叉约束的实体和相互的关系。对三个公共数据集的实验表明,COTYPE在不同领域(如新闻、生物医学)的有效性,与下一个最佳方法相比,F1 分数平均提高了 25%。

一、INTRODUCTION

实体及其关系的提取是理解海量文本语料库的关键。标识构成实体提及的文本中的令牌跨度,并为这些跨度分配类型(例如person、company)以及实体提及之间的关系(例如employed_by),这是构建文本语料库内容以进行进一步分析的关键。例如,当提取系统在新闻文章中发现“公司”和“产品”实体之间的“产品”关系时,它支持回答诸如“X公司生产什么产品?”这些结构化的信息一旦被提取出来,就会以多种方式被使用,如信息提取中的原语、知识库填充[10,52]和问答系统[48,3]。传统的关系提取系统[2,9,17]将流程划分为几个子任务,并以增量的方式解决它们(即,从文本中检测实体,标记它们的类型,然后提取它们的关系)。此类系统独立地处理子任务,因此可能会将错误传播到流程中的各个子任务。最近的研究[24,32,44]集中在联合提取方法来捕获关系和实体参数之间的内在语言依赖(例如,实体参数的类型有助于确定它们的关系类型,反之亦然)来解决错误传播。

联合提取类型化实体和关系的一个主要挑战是设计独立于域的系统,该系统将在没有人工标注的域数据的情况下应用于来自不同域的文本语料库。手工标记具有大量实体和关系类型的训练集的过程开销太大,而且容易出错。大型的、特定领域的文本语料库(例如,新闻、科学出版物、社交媒体内容)的迅速出现,要求能够联合提取目标类型实体和关系的方法,而这些实体和关系几乎不需要人工监督。
在这里插入图片描述
图一:当前系统查找关系(巴拉克·奥巴马,美国)* 在句子 S1-S3 中提到的关系类型(实体类型)分配给所有关系提及(实体提及),当只有某些类型对上下文正确时(以蓝色字体突出显示)。

要实现这一目标,大致有两种努力:弱监管和远程监管弱监督[6,36,13]依赖于一小组手工指定的种子实例(或模式),这些实例应用于引导学习,以识别每种类型的更多实例。这假设种子是明确的和充分频繁的语料库,这需要仔细的种子密封由人类[2]。远程监督[31,43,21,49]通过对齐文本和知识库(KB)自动生成训练数据(见图1)。典型的工作流程为:(1)检测文本中提到的实体;(2)将检测到的实体映射到知识库中的实体;(3)将所述各实体的所有KB映射实体的所有KB类型赋给该实体的候选类型集;(4)向每个实体提及对的候选类型集分配它们的KB映射实体之间的所有KB关系类型。然后使用自动标记的训练语料库来推断剩余的候选实体提及和关系提及的类型。

本文研究了类型化实体的联合抽取问题以及与远程监控的关系。给定一个领域特定的语料库和一组来自知识库的目标实体和关系类型,我们的目标是检测文本中提到的关系(以及它们的实体参数),并根据目标类型或非目标类型(None)在上下文中对每种关系进行分类,并进行远程监控。目前的远程监控方法侧重于单独解决子任务(如提取类型化实体或关系),在处理联合提取任务时遇到以下限制。

(1)域限制:它们依赖于预先训练的命名实体识别器(或名词短语块)来检测实体提及。

(2)错误传播:在当前提取管道中,实体识别和键入步骤中生成的不正确的实体类型充当关系提取步骤中的功能。

(3)标签噪音:在远程监督中,上下文无关的映射从关系(实体)提到KB关系(实体)可能会带来误正型标签(即标签噪声)到自动标记的训练公司,结果不准确的模型。

巴拉克·奥巴马和美国之间的所有KB关系(例如,born_in, president_of)都被分配到句子S1中提到的关系(只有born_in在上下文中是正确的)。类似地,巴拉克·奥巴马的所有KB类型(例如,政治家、艺术家)都被指定为S1中提到的“Obama”(只有person是真的)。标签噪声成为学习有效类型分类器的障碍。目标类型设置越大,标签噪声的程度越严重(见表1)。
在这里插入图片描述
表一:类型标签噪声的研究。(1): %实体在给定实体类型层次结构中提及多个同级实体类型(例如,参与者、歌手);(2):对于三个实验数据集,使用多个关系类型提及的百分比关系。

我们的联合提取任务如下:(1)设计一种与领域无关的文本分割算法来检测候选的实体提及,同时采用远程监控和最小的语言假设(即,假设标注词性的语料库为[22])。(2)对关系提及类型与实体参数类型之间的相互约束进行建模,实现两个子任务之间的反馈。(3)模型的真实类型标签候选人类型设置为潜变量和只需要“最好”的类型(逐步估计我们学习模型)少提到这个是限制相关要求与现有多标记分类器相比,认为“每一个”类型是提到相关候选人。

为了整合这些元素,我们提出了一个新的框架,COTYPE。它首先运行后约束文本分割使用积极的例子从知识库中挖掘质量实体提及,并形成候选关系提及(第3.1节)。然后,COTYPE执行实体链接,将候选关系(实体)映射到知识库关系(实体),并获取知识库类型。我们制定了一个全局目标来联合建模(1)可链接关系(实体)提及和从其本地上下文提取的文本特征之间的语料库级的共现;(2)提及物与其kb映射类型标签之间的关联;(3)关系提及与实体参数之间的交互。特别地,我们设计了一个新的部分标记损失模型,以一种鲁棒的方式来模拟嘈杂的标记关联,并采用基于翻译的目标来捕获实体-关系的相互作用。将目标最小化会产生两个低维空间(分别表示实体和关系),其中,在每个空间中,其类型在语义上相近的对象也具有类似的表示(参见第3.2节)。通过学习嵌入,我们可以有效地估计其余不可链接的关系提及及其实体参数的类型(参见第3.3节)。

本文的主要贡献如下:

  • 摘要提出了一种新的远程监控框架COTYPE,在最小语言假设下提取领域特定语料库中的类型化实体和关系。
  • 提出了一种基于领域无关的文本分割算法,利用远程监控来检测实体提及。
  • 提出了一种关节嵌入目标,该目标以噪声鲁棒的方式对三维关联、三维-特征共现、实体-关系交叉约束进行了建模。
  • 对三个公共数据集的实验表明,COTYPE显著地提高了最先进的实体类型和关系提取系统的性能,显示了健壮的领域独立性。

二、BACKGROUND AND PROBLEM

(1)Entity and Relation Mention
(2)Knowledge Bases and Target Types
(3)Automatically Labeled Training Data
(4)Problem Description.
(5)Non-goals.

三、THE COTYPE FRAMEWORK

本节列出了建议的框架。联合提取任务提出了两个独特的挑战。首先,可链接的实体(关系)提及和它们的kb映射实体(关系)之间的远程监控中的类型关联是上下文无关的——候选类型集,包含“假”类型。监督学习可能会产生偏向于错误类型标签的模型。其次,关系提及和它们的实体参数之间存在依赖关系(例如,类型相关)。现有的系统将任务描述为级联监督学习问题,可能会出现错误传播。

我们的解决方案将类型预测任务转换为弱监督学习(在上下文中对提及及其候选类型之间的关联进行建模),并基于大型语料库中的冗余文本信号,使用关系学习联合捕获提及及其实体提及参数之间的交互。

具体来说,COTYPE利用局部标签学习来忠实地使用从提及的本地上下文提取的文本特征来建模提及类型关联。它使用基于翻译嵌入的目标来建模关系提及及其实体(提及)参数之间的相互类型依赖关系
在这里插入图片描述
图二:COTYPE的框架概述

我们提出了一个基于嵌入式的远程监控框架(见图2),具体如下:

  • 使用从知识库中获得的正样本,对带poser标记的语料库D运行poser约束的文本分割算法,以检测候选实体。
  • 从M中生成候选关系提到Z,提取每个关系提到z及其实体提到参数的文本特征。应用远程监控生成标记的训练数据DL。
  • 在两个低维空间(分别用于实体和关系)中共同嵌入关系和实体提及、文本特性和类型标签,其中,在每个空间中,紧密的对象倾向于共享相同的类型。

3.1 Candidate Generation

(1)Entity Mention Detection
传统的实体识别系统依赖于一组语言特征(如句子的依赖解析结构)来训练序列标记模型(用于一些常见的实体类型)。然而,在自动标记的语料库DL上训练的序列标记模型可能并不有效,因为远程监控只在DL中注释少量的实体提及(从而产生大量“假阴性”标记标记)。为了解决域限制问题,我们开发了一种用于领域无关实体检测的远程监督文本分割算法。它以知识库中的高质量示例为指导,通过合并(1)语料库级的一致性统计,将句子分成实体提及和单词片段;(2)句子级词汇信号;(3)语法限制(即, POS标签模式)。

我们扩展了文献中使用的方法来建模片段质量(即片段质量)。,“一个候选部分被实体提及的可能性有多大”)作为短语质量和POS模式质量的组合,并使用DL中的积极例子来估计部分质量。其工作流程如下:(1)从POS标记语料库D中挖掘出固定长度的词序和POS标记序列的频繁连续模式;(2)提取语料级一致性和句子级词汇信号等特征,训练两个随机森林分类器[27],用于估计候选短语和候选POS模式的质量;(3)利用估计的片段质量分数,找到D的最佳分割;(4)利用分割后的语料库计算待矫正特征,重复步骤(2)-(4)直到结果收敛。
在这里插入图片描述
表二:实体提及检测的F1得分比较
在这里插入图片描述
图三:使用KB示例学习POS标记模式的示例

表2比较了我们的实体检测模块和在标记的语料库DL上训练的序列标记模型[26](linear-chain CRF)的F1分数。图3显示了使用DL中的实体名称学习的高/低质量POS模式的例子。

(2)Relation Mention Generation
我们按照第2节中介绍的步骤,从被检测到的候选实体中生成候选关系Z:对于句子s中发现的每一对实体提及(ma;mb),我们形成两个候选关系z1 = (ma;mb;s)和z2 = (mb;ma;s).然后对Z进行远程监控,生成一组提到ZL的KBmapped relation。与[31,21]类似,我们在一个句子中采样两个kb映射的实体提及(来自set ML)之间30%不可链接的关系提及(来自set ML)作为建模无关系标签的示例,采样30%不可链接的实体提及(来自set MnML)作为建模无实体标签的示例。这些负面的示例,以及ZL中提到的类型标签,形成任务的自动标记数据DL。

(3)Text Feature Extraction
为了捕获关系(或实体)提及的浅层语法和分布语义,我们从带后标记的语料库中的提及本身(如head token)及其上下文(如bigram)中提取各种词汇特征。表3列出了关系提及的一组文本特性,它们与[31,7]中使用的特性类似(不包括基于依赖项解析的特性和实体类型特性)。我们使用与在[42,26]中使用的相同的实体提及功能集。我们将提取的关系提及ZL (ZL中的实体提及)的Mz (Mm)唯一特征集称为Fz。

3.2 Joint Entity and Relation Embedding

本节针对可链接关系提到ZL、可链接实体提到ML、实体和关系类型标签{R;Y}和文本特征{Fz;Fm}分为d维关系向量空间和d维实体向量空间。在每个空间中,类型相近的对象应该具有相似的表示。

由于被提取的对象和它们之间的相互作用形成了一个异构的图(见图2),一个简单的解决方案是将整个图嵌入到一个低维空间中。但是,这样的解决方案会遇到几个问题:(1)候选类型集中的假类型(即,图中的错误提到类型链接)对模型确定提及的真实类型的能力产生负面影响;(2)单个嵌入空间无法捕获实体和关系类型(即,关系提及及其实体提及参数之间的强链接并不意味着它们具有相似的类型)。

在我们的解决方案中,我们提出了一个新的全局目标,该目标将基于边缘的秩损失扩展到模型嘈杂的维度类型的关联,并利用二阶近似思想来建模微粒级别的维度-特征共出现。特别地,为了捕获实体-关系的交互作用,我们采用基于翻译的嵌入损失来桥接实体提及和关系提及的向量空间。

四、EXPERIMENTS

数据集:(1)NYT;(2)Wiki-KBP;(3)BioInfer;

五、RELATED WORK

(1)Entity and Relation Extraction
(2)Learning Embeddings and Noisy Labels

六、CONCLUSION

本文研究了领域无关、类型化实体的联合提取以及文本中远程监控的关系。提出的共类型框架运行领域不可知的分割算法来挖掘实体提及,并将联合实体和关联提及的类型问题作为全局嵌入问题。我们设计了一个噪声鲁棒目标来忠实地建模噪声类型标签,并捕获实体与关系之间的相互依赖关系。实验结果证明了共型在不同领域文本语料上的有效性和鲁棒性。未来有趣的工作包括:在训练数据中加入伪反馈思想[53]来减少假阴性类型标签,在给定的类型层次结构[42]中建模类型相关性,以及对测试实体提及和关系提及联合执行类型推断。

发布了199 篇原创文章 · 获赞 268 · 访问量 8万+

猜你喜欢

转载自blog.csdn.net/MaybeForever/article/details/103047804