文献阅读笔记(八)

Entity Linking An Issue to Extract Corresponding Entity With Knowledge Base笔记整理

一、   论文整理思路流程

1.1   论文的相关研究工作

  1. 目前的网络数据中获取的大量实体都存在歧义问题。然而在构建知识库的过程中,我们必须将网络文本中命名实体与知识库中的对应实体进行链接。但由于命名实体的多义性或是不同单词的同义性造成的实体歧义性,对实体进行消歧成为了实体链接最重要的工作。
  2. 论文首先介绍了命名实体识别技术以及将命名实体识别与其他相关技术的比较
  3. 给出一个实体链接系统的架构和相关定义
  4. 介绍实体链接的两个阶段
  5. 本文主要是以介绍总结为主
  6. 文章首先给出命名实体识别链接的相关问题:

1.2   论文主要解决的问题

1.3   论文解决问题的过程

1)   首先提出了命名实体识别问题,即识别文本中的命名实体并决定实体的分类。命名实体识别的方法可以分为基于规则的方法(根据结构等信息提前设置好识别规则)、基于统计的方法(基于机器学习使用数据训练)

2)   随后提出了实体消歧中共指问题的解决:共指问题主要要求解决不同表述指向同一个现实实体。相同表述的集合称为共指链,其中不同的表述称为提及。共指问题通常使用基于规则的方法进行扩展。

3)   单词词义选择问题指的是根据情景选择正确的多义词的词义。使用的方法包括基于机器学习的方法(监督学习的支持向量机、决策树;非监督学习的聚类)

4)   最后提出实体链接,即命名实体消歧问题。也就是将文本中命名实体与知识库中的对应实体进行链接。

  1. 文章随后给出了实体链接的相关定义:

1)   实体链接:指将文本中的查询实体提及与知识库中对应的实体链接。包括候选链接实体生成、候选实体消歧、生成链接阶段。正式的描述定义是:给出一系列文档d ={d1,d2 ...}以及知识库K,从文档中获得一系列提及M ={m1,m2 ...}。对于每一个mi ∈M都能在知识库中得到候选链接实体集C ={c1, c2 ...},实体链接就是从候选集中找出链接实体。

2)   查询提及:即命名实体在文本中的表面形式

  1. 此外给出实体链接系统的框架:

1)     候选链接实体生成模块:首先使用命名实体识别工具识别文本中的提及然后在知识库中找出对应的候选实体。

2)     候选实体消歧模块:根据实体的普遍性、实体类型、查询提及与候选实体的相似度等方法对实体进行排序,可能性越大的实体排名越靠前。

3)     链接结果生成模块:根据前一个模块生成的排名选取目标实体。通常需要设置一个最低阈值,若没有没超过阈值的候选链接则返回NIL标记表面匹配失败。

  1. 文章紧接着给出实体链接的具体方法,也是分为候选链接实体生成方法、候选实体消歧方法、连接结果生成方法。
  2. 候选链接实体生成方法

1) 基于词典的方法:基于知识库构建一个命名字典,每一个命名都是对应字典的一个索引,对应着一个可能匹配实体的集合。当索引指向的字典能对应到所需要的查询实体,则对应的实体集就会被全部加入到候选实体集中。

2) 基于直接搜索知识库的方法

3) 基于可能性的方法:使用计算可能性p(e|m)选择候选实体。m指查询提及,e指的是知识库中的实体。count(m,e)指作为实体e的链接锚链接的提及数,count(m)指提及在维基百科中作为链接锚的数量

 

  1. 候选实体消歧方法:

1) 基于相似度计算的方法:通常使用余弦相似度或是文本相似度(PMI、WLM)进行相似度的计算。其中V指的是查询提及和实体的对应的文本向量(text vector)

 

2) 基于机器学习的方法:使用<mention, entity>对作为机器学习的训练数据训练一个二分分类法。机器学习通常能得到e和m的可能性分布,从而能得到候选实体的排名。

3) 基于图的方法:给提及和它的候选实体构建一个图,这个方法将所有的提及和所有的候选实体放在一起考虑。图的边通常赋予权重(边代表关系,这个权重通常由WLM计算得到。)

  1. 连接结果生成方法:

1) 基于字符串相似度的方法:通过字符串相似度,使用实体的表面形式(文本形式)进行匹配。使用多种相似度计算实体相似度,相似度高的实体归为一簇。

2) 基于分级聚簇的方法:首先将实体根据提及的实体初始化为几个聚簇分类,然后在各个聚簇中合并实体直到某一个聚簇低于阈值。

3) 基于图的方法:将实体构建语义图然后使用分级聚簇方法得到NIL实体

  1. 文章也介绍了常用知识库,包括Wikipedia、DBpedia、YAGO、TAC-KBP(TAC会议提供的知识库);还有常用的数据集: KORE50(人工从社交平台提取)、AIDA-CoNLL、NEEL(The Named Entity rEcognition and Linking挑战赛数据)、OKE(Open KnowledgeExtractionChallenge挑战赛数据)、AQUAINT、TAC-KBP
  2. 最后文章着重介绍了衡量实体链接的指标,分为三类:精确度(Precision)、召回率(Recall)

、Fα-measure。针对不同侧重的实体链接,相应的公式也有所稍微调整。

二、   论文创新点

论文主要是以介绍为主,系统性的总结了实体链接系统使用的方法、使用的数据集以及衡量标准公式。

猜你喜欢

转载自www.cnblogs.com/hwx1997/p/12444149.html