Entity Linking Finding Extracted Entities in a Knowledge Base笔记整理
一、 论文整理思路流程
1.1 论文的相关研究工作
- 目前信息抽取的核心任务:命名实体识别、共指消歧、命名实体关系提取。
- 目前面临的挑战:新提取出的信息必须与之前提取出的信息进行合并融合,具体的问题是文本中的提及与知识库中实体链接、决定选取那一条同义信息、利用现有知识提升信息抽取、决定是否在知识库中创建新实体。
- 在本文中认为的最重要的挑战是实体消歧任务。当前的研究进展已经提出数个实体消歧方法:
1) 使用实体的背景知识进行消歧(如同名的人使用出生日期区分)
2) 使用维基百科等现有知识库,如使用启发式规则和维基百科消歧标记从实体的表面形式到维基百科词条的链接。
- 在本文中,实体链接指将可能由命名实体识别器识别的文本实体提及与知识库现有条目匹配。实体链接查询指将给定文本中的实体提及与知识库中的实体进行链接
- 在本文提出的系统,主要解决命名多样性、实体歧义性、缺省这三个实体链接问题
- 提出了一种基于监督学习的方法,该方法将知识库中可能与查询实体匹配的实体计算出一个分数。
- 该方法针对开放领域(其中的很大比例的实体将不可链接,因为它们未出现在知识库中),并进行了相应的措施,即当实体没有匹配的知识库条目时,系统会学习何时保留链接。
- 该系统可以返回匹配成功的实体或是不存在链接的NIL标记。
- 在该系统专注于将组织,地缘政治实体和个人实体链接到Wikipedia衍生的知识库。
- 本文主要的创新点就是移除了先前研究的不合实际的假设(所有实体在维基百科中都有对应的条目)、尝试用更加普遍的方法预测NIL的出现、使用新的基于监督学习的方法学习命名多样性。
- 首先提出了实体链接工作的相关技术和先前的研究,提出了实体链接的三个挑战以及本文提出的系统所解决的问题。
- 随后实体链接系统的三个组成部分分别进行介绍同时也分别介绍了本文提出的系统的相关组成。
- 首先介绍的是候选命名多义词的选择,先前的研究中使用了维基百科作为过滤器,这就将知识库限制于维基百科。于是本文考虑了两种候选实体选择方法:
1.2 论文主要解决的问题
1.3 论文解决问题的过程
1) 蛮力法:给出查询后,系统按以下规则选择知识库中的实体:实体的标题正好匹配于查询匹配\实体标题包含在查询内\查询提及的首字母缩写与知识库中实体匹配\查询提及是知识库中某一实体的同义词\查询提及与知识库中某一实体有很高的字符串相似度。在此方法中,我们得到的候选实体集较整个知识库而言小了三四个数量级。
2) 次线性选择:之前的选择候选集的方法是基于知识库的线性方法,大部分的基于相似度的过滤器其实可以预先进行计算。本文在这里使用了skip bigram Dice计算查询是否与知识库中的实体的skip bigram有重叠。这一改进加速了计算大型知识库的并行化速度
- 文章提出的系统使用监督学习的方法进行实体链接。将查询以向量的方式给出,目标是从候选实体集Y的向量中选择一个知识库实体y。为了评估Y中的每一个实体,文章引入特征函数f(x,y)形式,x是查询文档或是提及,y是Y中的实体。这一特征函数命名多样性和实体消歧。文章将特征分为原子特征和复合特征,原子特征直接从相关的命名实体派生,组合特征是合取范式中原子特征的逻辑表达式。一个特征用一个向量的来表示。
- 通过使用监督学习,文章选取了单一实体作为查询的结果。排名器将对应查询的候选实体集进行排序,文章假设只有一个正确的答案,并且对此提出了更高的要求,因此正确答案排名是最高的实体。此外文章还设置了一个最大余量γ,即排名最高的实体的分数要比其他的实体分数至少大γ。
- 线性方法的实体链接中考虑的特征:
1) 实体消歧特征:基于候选的查询/实体对生成的200个原子特征用于表示x, 生成这些原子特征的方法是基于线性模型,将每个特征与实体的预测类型相结合,从而允许算法学习每种实体的类型的预测函数,最终生成新的更细致的特征,用于预测函数的计算
2) 命名多样性特征:包括字符串相等(如果查询名称和知识库中条目名称相同,则表明存在匹配,文章使用的知识库条目实体的名称中是不同的)、精确字符匹配(由于大量的提及无法完全匹配,所以使用多种字符串相似度计算字符串匹配长度)、缩略语、同义词度量等方法
3) 维基百科特征:包括维基图、维基实体
4) 实体的普遍性
5) 文档特征:包括实体提及的表现形式、知识库事实(知识库中的概念或实体是否存在于产生查询提及的文档中)、文档相似度(查询文档与知识库文本的相似度)、实体类型。
- 对于NIL结果的预测:通过使用支持向量机,将Y加入NIL从而得出结果为NIL的查询的特征。同时将NIL结果加入排序器中,可以自动得到一个阈值。
- 实验使用的数据集:TAC-KBP和Microsoft News Data
- 监督学习算法中训练集的生成:人工标注的1496个命名实体提及(来自于TAC-KBP的新闻文档)并将这些提及与基于维基百科的知识库相连。此外还有来自于TAC-KBP的119个示范查询
- 首先在TAC-KBP 2009竞赛上进行实验,竞赛主要考查两个子任务:提及与标准知识库的链接(每个查询由一个名称字符串和一个参考文档组成,该文档包含名称字符串和提供的上下文,以帮助确定要引用哪个知识库实体)、收集来自大型语料库的实体的新属性和实体之间的关系。
- 针对特征效率,使用TAC-KBP数据集。从一个较小的候选集和基准特征开始,添加考虑的特征观察系统表现的变化。
- 衡量指标:Micro-Averaged、Macro-Averaged
- 在TAC-KBP 2009竞赛中,我们通过考虑使用所有的特征、所有特征的子集来进行实验。结果发现,考虑进NIL在各个指标中均表现更好。
- 在衡量特征效率的实验中,发现并不是考虑的特征越多表现越好,移除某一些特征反而会提高表现分数。
1.4 论文使用的实验方法
1.5 实验最终结果的评估
二、 论文创新点
文章提出了一个最新的系统以消除文本中的实体提及并将它们链接到知识库。不仅局限于维基百科,文章提出的系统也能使用其他知识库。描述了在监督学习方法下完成实体链接的综合特征集