实体-关系联合抽取:Knowledge-Based Weak Supervision for Information Extraction of Overlapping Relations

论文地址:https://www.aclweb.org/anthology/P11-1055.pdf

文章标题:Knowledge-BasedWeak Supervision for Information Extraction of Overlapping Relations(基于知识的弱监督的重叠关系信息抽取)ACL2011

本文代码及数据:http://raphaelhoffmann.com/mr/

Abstract

信息提取(Information extraction, IE) 有望从Web的自然语言文本生成大规模的知识库。基于知识的弱监督,使用结构化数据来启发式地给一个训练语料库贴上标签,通过允许潜在无限数量的关系提取器的自动学习来实现这一目标。最近,研究人员开发了多实例学习算法来对付启发式标记可能带来的嘈杂训练数据,但他们的模型假设关系是不相交的——例如,他们不能提取创建的一对(Jobs, Apple)和CEO-of(Jobs, Apple)。

摘要提出了一种新的多实例学习方法,该方法将句子级的抽取模型与一个简单的语料库级的构件相结合,以实现对单个事实的聚合。我们应用我们的模型学习提取器从Freebase对纽约时报文本使用弱监督。实验表明,该方法运行速度快,并在总体和句子水平上获得了惊人的准确性。

一、Introduction

信息提取(Information-extraction,即从自然语言文本中生成关系数据的过程)继续受到关注。许多研究人员梦想创建一个高质量提取元组的大型存储库,他们认为这样的知识库可以使许多重要的任务受益,比如问题回答和摘要。大多数IE方法都使用了监督学习特定于关系的例子,这样可以实现较高的精度和召回率。然而,不幸的是,完全监督的方法受到训练数据的可用性的限制,不太可能扩展到网络上发现的成千上万的关系。

一种更有前途的方法,通常被称为 “弱”或“远程”监督,通过启发式地将数据库的内容与相应的文本匹配来创建自己的训练数据(Craven和Kumlien, 1999)。例如,假设r (e1, e2) =(乔布斯,苹果)是一种建立地面数据库中的元组和s=“史蒂夫·乔布斯创立苹果公司”是一个句子包含两个同义词e1=Jobs和e2=Apple,然后年代可能是自然语言表达的r (e1, e2)认为,可能是一个有用的训练例子。

弱监督适用严格对齐文本语料库时对数据库的内容(例如,匹配维基百科信息框相关文章(霍夫曼et al ., 2010)),里德尔et al。(2010)观察到启发式导致噪声数据和提取表现不佳时,方法应用更广泛(例如,匹配Freebase记录纽约时报文章)。为了解决这个问题,他们将弱监督作为多实例学习的一种形式,假设至少有一个包含e1和e2的句子表达了r(e1, e2),并且他们的方法在提取性能上有很大的改进。

然而,Riedel等人的模型(像以前的系统一样(Mintz等人,2009))假设关系不重叠——不可能存在两个事实r(e1, e2)和q(e1, e2)对任意一对实体e1和e2都为真。不幸的是,这个假设经常被违背;例如,两家公司的创始人(乔布斯,苹果)和ceo(乔布斯,苹果)显然都是正确的。的确,Freebase中与《纽约时报》2007年语料库中的句子相匹配的弱监督事实中,有18.3%存在重叠关系。

本文提出了一种新的弱监督模型MULTIR,其贡献如下:

  • MULTIR引入了一个处理重叠关系多实例学习的概率图形模型

  • MULTIR还能产生准确的句子级预测,对单个句子进行解码,并进行语料库级的提取。

  • MULTIR在计算上易于处理。推理简化为加权集合覆盖,对其采用最坏情况运行时间O(|R|·|S|)的贪心近似,其中R为概率关系集,S为任意实体对的最大句子集。实际上,MULTIR运行得非常快

  • 我们的实验表明,MULTIR在聚合(整体语料库)和句子提取两个方面都优于Riedel等人(2010)的方法的重新实现。附加的实验描述了MULTIR性能的各个方面。

二、Weak Supervision from a Database(来自数据库的弱监督)

给定一个文本库,我们试图提取实体的事实,比如苹果公司或波士顿市。基本事实(或关系实例)是一个表达式r(e),其中r是关系名,例如Founded或CEO-of, e = e1,…, en是实体列表。

提到的实体是表示实体的文本标记的连续序列。本文假设有一个能识别语料库中所有实体提及的oracle,但该oracle并没有对这些提及进行规范化或消除歧义。我们使用ei来表示实体及其名称。

关系提及是一个文本序列(包括一个或多个实体提及),它声明一些基本事实r(e)是真的。微软首席执行官史蒂夫·鲍尔默最近在消费电子展上说。包含三个实体提到以及一个关系提到的ceo(史蒂夫鲍尔默,微软)。在本文中,我们把注意力限制在二元关系上。此外,我们假设两个实体在一个句子中都以名词短语的形式出现。

一般来说,微粒级别的提取问题比较简单,因为它只需要进行聚合预测,可能需要使用微粒级别的统计数据。相反,句子级提取必须用每一个表达事实的句子来证明每一个提取

三、Modeling Overlapping Relations(重叠关系的建模)

我们定义了一个无向的图形模型,该模型允许对聚合(语料库级)和句子级提取决策进行联合推理。图1(a)为板型模型。
在这里插入图片描述
图一:(a)描述为平板模型的网络结构和(b)一对实体的网络实例化。

3.1 Random Variables(随机变量)

每对实体e = (e1, e2) 都存在一个连接组件,该组件对这对实体的所有提取决策进行建模。每个关系名r都有一个布尔输出变量Y,它表示基本事实r(e)是否为真。包含这组二进制随机变量使我们的模型能够提取重叠关系。

让S(e1,e2)作为句子的集合包含两个entities。对于提到的每个句子xi都存在一个潜在的变量Zi,它的作用范围是关系名称r,重要的是,它还有一个不同的值none。只有当xi表示地面事实r(e)时,才应该给Zi赋值r,从而建模句子层次提取。

图1(b)显示了一个模型实例化的例子,包含四个关系名和三个句子。

3.2 A Joint, Conditional Extraction Model(一个联合的条件提取模型)

我们使用一个条件概率模型,它定义了上述所有抽取随机变量的联合分布。该模型是无向的,它包含了进行句子水平预测的重复因素,以及聚合这些选择的全局因素。

3.3 Discussion

该模型旨在提供一种提取决策几乎完全由句子级推理驱动的联合方法。然而,定义Y随机变量并将它们与句子层次的变量Zi联系起来,为弱监督的建模提供了一种直接的方法。我们可以简单地训练模型,使Y变量与数据库中的事实相匹配,将Zi视为可以接受任何值的隐藏变量,只要它们生成正确的聚合预测。

该方法与Riedel等人(2010)的多实例学习方法相关,两种模型都包含句子级和聚集随机变量。但是,它们的句子级变量是二进制的,并且它们只有一个聚合变量,该变量的值为r,因此排除了重叠关系。此外,他们的聚合决策使用Mintzstyle聚合特性(Mintz et al., 2009),从多个句子中收集证据,而我们只使用确定性或节点。也许令人惊讶的是,我们仍然能够提高句子和聚合提取任务的性能。

四、Learning

针对弱监督模型,我们提出了一种多实例学习算法,该算法将句子级抽取的随机变量Zi作为潜在变量,并使用数据库中的事实(如Freebase)作为对集合级变量Y的监督。

给定这种监督形式,我们找到最高可能性的θ来设置:
在这里插入图片描述
然而,这个目标很难精确地优化,而且这样做的算法不太可能扩展到我们所考虑的数据集大小。相反,我们做了两个近似,如下所述,导致了一个感知器风格的加法(Collins, 2002)参数更新方案,该方案已被修改为关于隐藏变量的原因,在风格上类似于(Liang et al., 2006;Zettlemoyer和Collins, 2007年),但针对我们的特定模型进行了调整。这个近似算法在计算上是有效的,我们将看到,在实践中工作得很好。

我们的第一个修改是在线学习,而不是优化整个目标。我们的第二个修改是做一个维特比近似,用最大化代替期望。然后我们计算这些分配的特性并进行简单的附加更新。最终的算法如图2所示。
在这里插入图片描述

五、Inference(推理)

在本节中,我们将描述使用确定性或节点来简化所需计算的两种情况的算法。

(1)Exact Solution(精确解)
通过计算最大加权二部匹配,并将边缘加入到非关联的节点中,可以得到精确解。

(2)Approximate Solution(近似解)
通过对Vy中的节点进行迭代,每次添加不违反约束的最大权值的关联边,可以得到近似解。运行时间为O(|R||S|)。这种贪婪的搜索保证每个事实至少被提取一次,并允许任何额外的提取来增加分配的整体概率。考虑到它的计算优势,我们将其用于所有的实验评估。

六、Experimental Setup

我们采用Riedel等人(2010)的方法来生成弱监督数据、计算特征和评估总提取。我们还介绍了度量句子提取性能的新指标,包括独立于关系的和特定于关系的。

6.1 Data Generation

我们使用与Riedel等人(2010)相同的数据集来进行弱监督。首先使用Stanford NER系统对数据进行标记(Finkel et al., 2005),然后通过收集每个连续的短语发现实体提及率,其中的单词被标记为相同的(即,作为人、地点或组织)。最后,这些短语被匹配到Freebase实体的名称。

6.2 Features and Initialization

我们使用Riedel等人(2010)描述的句子级特征集,这些特征集最初是Mintz等人(2009)开发的。这些包括各种词法、部分词性、命名实体和特定句子中实体提及的依赖树路径属性的指示符,如Malt依赖解析器(Nivre和Nilsson, 2004)和OpenNLP POS tagger1所计算的。但是,与前面的工作不同,我们没有使用任何特性来显式地跨多个提到实例聚合这些属性。

MULTIR算法只有一个参数T,即训练迭代的次数,必须手动指定。我们使用T = 50次迭代,在实验中表现最好。

6.3 Evaluation Metrics

(1)Aggregate Extraction(总提取)

(2)Sentential Extraction(句子的提取)

6.4 Precision / Recall Curves(精度/召回率曲线)

为了计算任务的精度/召回曲线,我们将多r提取排序如下:

  • 对于句子级别的评估,我们根据抽取因素分数排序。
  • 对于聚合比较,我们将提取Y = true的分数设置为提取r的句子的提取因子分数的最大值。

七、Experiments

为了评估我们的算法,我们首先将其与现有的使用弱监督的多实例学习的方法进行比较(Riedel et al., 2010),使用相同的数据和特征。我们报告了集料提取和句子提取的结果。然后,我们研究系统的特定关系性能。最后,我们报告运行时间比较。

7.1 Aggregate Extraction(总提取)

在这里插入图片描述
图四:Riedel等人(2010)的聚合提取精度/召回曲线,该方法的重新实现(SOLOR),以及我们的算法(MULTIR)。

图4显示了使用聚合度量(章节6.3)计算的三个系统的近似精度/查全率曲线,测试了提取与Freebase中的事实匹配的程度。该系统包括Riedel等人(2010)报告的原始结果,以及我们的新模型(MULTIR)。我们还与SOLOR进行了比较,后者是我们在Factorie中构建的算法的重新实现(McCallum et al., 2009),并将在以后用于评估句子提取。

MULTIR在所有的召回范围内都具有竞争力或更高的精确度,只有非常低的召回范围(大约0-1%)例外。它还极大地提高了最高召回率,从20%提高到25%,几乎没有造成精度损失。为了调查0-1%召回范围内的低精确度,我们手动检查了MULTIR产生的10个最高可信度的错误提取。我们发现这十个事实都是Freebase所缺少的。当我们接下来执行句子提取时,手动评估将删除这个dip。

7.2 Sentential Extraction(句子的提取)

在这里插入图片描述
图五:MULTIR和SOLOR的句子提取精度/查全率曲线。

虽然Riedel等人(2010)的模型中包含了对句子提取进行模型化的变量,但他们并没有报告句子水平的表现。为了生成精度/回忆度曲线,我们使用联合模型分配分数来对每个句子进行汇总提取决策。

图5显示了根据第6.3节中定义的手动生成的句子标签计算的MULTIR和SOLOR的近似精度/查全率曲线。MULTIR实现了更高的召回率和一致的高水平的精度。在最高召回点,MULTIR的正确率为72.4%,召回率为51.9%,F1得分为60.5%。

7.3 Relation-Specific Performance(Relation-Specific表现)

由于数据包含每个关系的不平衡实例数,我们还报告了十个最常见关系中的每个关系的精确性和召回率。
在这里插入图片描述
表1给出了每个关系上的MULTIR的近似精度和召回率,以及我们用来衡量弱监督质量的统计数据。大多数关系的精确度很高,但召回率却始终较低。我们还看到,自由基匹配在数量上是高度倾斜的,在一些关系中可能是低质量的,它们中很少真正对应于真正的提取。该方法通常在具有足够多的真匹配的关系上表现得最好,在许多情况下,甚至在合理的回忆级别上实现的精度超过启发式匹配的精度。

7.4 Overlapping Relations(重叠的关系)

表1还强调了使用重叠关系学习的一些效果。例如,在数据中,几乎所有的行政区关系匹配都与包含关系重叠,因为它们都为一对位置的关系建模。因为,一般来说,句子更有可能描述一个包含关系,这种重叠导致的情况几乎没有一个管理部门匹配是真实的,我们不能准确地学习提取器。然而,我们仍然可以学习准确地提取包含关系,尽管有分散注意力的匹配。同样,出生地点和死亡地点的关系也趋向于重叠,因为人们通常是在同一城市出生和死亡的。在这两种情况下,准确率都高于标签的准确率,召回率也相对较高。

为了度量建模重叠关系的影响,我们还评估了一个简单的、受限的基线。我们没有使用所有真正的Freebase事实集来标记每个实体对,而是创建了一个数据集,其中每个真实关系用于创建一个不同的训练示例。对这些数据进行MULTIR培训,可以模拟由于没有建模重叠而产生的相互冲突的监督的影响。在所有关系中,平均来说,准确率提高了12分,但召回率下降了26分,使F1得分从60.5%下降到40.3%。

7.5 Running Time(运行时间)

我们模型的最后一个优点是运行时间适中。我们实现Riedel等人(2010)的方法需要大约6个小时在NY Times 05-06上进行培训,4个小时在NY Times 07上进行测试,每个过程都没有预处理。尽管全局聚合变量会进行抽样以进行推理,但是它们需要对一个指数级大的(句子数量)样本空间进行推理。

相比之下,我们的方法需要大约一分钟的训练和不到一秒钟的测试,对相同的数据。这种优势来自于确定性变量或聚合变量的分解。对于测试,我们只是单独考虑每个句子,并且在训练期间,我们对加权赋值问题的近似在句子数量上是线性的。

7.6 Discussion

句子提取结果证明了学习一个主要由句子层次特征驱动的模型的优点。虽然以前的方法使用了更复杂的特性来聚合来自单个句子的证据,但是我们证明了用简单的确定性或重叠关系模型来聚合强句子级证据是更有效的,并且还可以训练不使用聚合信息的句子提取器。

虽然Riedel等人的方法确实包含一个句子表达关系的模型,但它大量使用了主要用于实体级关系预测的聚合特征,并且在单个句子级提取的模型不太详细。也许令人惊讶的是,我们的模型能够在句子和聚合级别上做得更好。

八、Related Work

IE(信息抽取)的监督学习方法在(Soderland et al., 1995)中被引入,而且在这里有太多的总结。虽然这些方法提供了很高的精确度和召回率,但它们不太可能扩展到Web上文本中发现的数千个关系。开放的IE系统,执行独立于关系的提取器的自我监督学习(例如,先发制人的IE (Shinyama和Sekine, 2006), TEXTRUNNER (Banko等,2007;Banko和Etzioni(2008)和WOE (Wu和Weld, 2010)可以扩展到数百万个文档,但不能输出规范化的关系。

8.1 Weak Supervision

弱监督(也称为远程-或自我监督) 指的是一类广泛的方法,但我们关注的是越来越流行的使用结构化数据存储来直观地标记文本语料库的思想。Craven和Kumlien(1999)通过将酵母蛋白数据库(YPD)与PubMed中的论文摘要进行匹配并训练一个naive-Bayes萃取器,提出了这一想法。Bellare和Mc-Callum(2007)使用BibTex记录数据库训练CRF提取器处理12种书目关系。KYLIN系统提供了薄弱的监督,从维基百科中学习关系,将信息框作为相关的数据库(Wu和Weld, 2007);Wu等人(2008)将该系统扩展为使用自动生成的信息框分类法进行平滑处理。Mintz等人(2009)利用Freebase事实在维基百科上训练了100个关系提取器。Hoffmann等人(2010)描述了一个类似KYLIN的系统,该系统动态生成词汇以处理稀疏数据,学习超过5000个Infobox关系,平均F1分为61%。Yao等人(2010)对实体类型进行弱监督,同时使用选择性偏好约束来联合推理。

NELL系统(Carlson et al., 2010)也可以被视为执行薄弱的监督。它的初始知识由选择偏好约束和20个事实种子组成。然后,NELL将实体对从种子匹配到Web语料库,但不是学习概率模型,而是使用用于多任务学习的半监督方法引导一组提取模式。

8.2 Multi-Instance Learning

引入多实例学习是为了解决预测不同药物活性时训练数据模糊的问题(Dietterich et al., 1997)。Bunescu和Mooney(2007)将弱监督与多实例学习联系起来,并将它们的关系提取内核扩展到这种上下文中。

Riedel等人(2010)将弱监督和多实例学习以一种更复杂的方式结合起来,训练一个图形化模型,该模型只假设Freebase事实的参数和语料库中的句子之间至少有一个匹配是真正的关系提及。我们的模型可以看作是他们的一个扩展,因为这两个模型都包含句子级和聚合随机变量。然而,Riedel等人只有一个单独的聚合变量,它的值为r,因此排除了重叠关系。我们已经在整个论文中更详细地讨论了比较,包括在模型制定部分和实验。

九、Conclusion

我们认为,弱监督是一种很有前途的方法,可以将信息提取扩展到能够处理Web上无数不同关系的级别。通过使用数据库的内容来启发式地标记一个训练语料库,我们可能能够自动学习几乎无限数量的关系提取器。由于数据库元组与句子匹配的过程具有固有的启发式,研究人员提出了多实例学习算法来处理产生的噪声数据。不幸的是,以前的方法假设所有关系都是不相交的——例如,它们不能提取已创建的(Jobs, Apple)和CEO-of(Jobs, Apple),因为两个关系不允许具有相同的参数。

本文提出了一种新的多实例学习方法,该方法将句子级提取模型与一个简单的语料库级组件相结合,用于聚合单个事实。我们应用我们的模型学习提取器纽约时报文本使用弱监督从Freebase。实验结果表明,该方法在句子抽取和语料抽取两方面都有一定的改进,并证明了该方法的计算效率。

我们早期的进展表明了许多有趣的方向。通过连接两个或更多的Freebase表,我们可以生成更多的匹配和学习更多的关系。我们还希望细化我们的模型,以提高精度。例如,我们希望为关系添加关于实体的类型推理和选择首选项约束。最后,我们还希望将整体学习方法应用到其他可以在弱监督下建模的任务中,比如共引用和命名实体分类。

发布了199 篇原创文章 · 获赞 268 · 访问量 8万+

猜你喜欢

转载自blog.csdn.net/MaybeForever/article/details/102958367