参考文献阅读笔记(二)

2014 PVLDB_From Data Fusion to

Knowledge Fusion笔记整理

一、   论文整理思路流程

1.1   论文的相关研究工作

  1. DateFusion中将数据来源作为矩阵的列,M个具体的数据项作为矩阵的行,N个则对应的某一位置表示的是某一个数据项在某一数据来源时对应的值。最终形成M*N矩阵,这个矩阵可以是稀疏的。
  2. DF的任务解决多个数据来源导致一个数据项有多个可能的值的冲突。
  3. 使用监督学习或是半监督学习提高知识(数据)提取的质量。
  4. 针对某一特定数据类型(结构化数据类型)的KF方法。
  5. 目前的DF方法是基于投票的方法(每一个数据来源都有投票权,选中得票最多的数据值)、基于质量的方法(衡量数据来源可信度)、基于关系的方法。

1.2   论文主要解决的问题

将DateFusion的方法应用到KnowledgeFusion。主要解决的问题是

  1. 将提到的DF的数据矩阵增加一个维度,增加的维度表示信息提取器,则每一个元素表示的是由某一信息提取器提取的来源于某一数据源的数据项的值。
  2. 评估实验了三种DF方法用于KF。
  3. 设计出通过使用MapReduce架构提高效率的基于上述三种DF方法的KF方法。
  4. 提出了一些易于操作且能实质提高质量的对现有方法的改进措施、
  5. 提出的方法可以针对的是不同数据类型的KF方法
    1. 知识库数据的选取:使用FreeBase中的数据,即使用的已定义好的三元组,每一个主语(subject)都是FreeBase中的实体,谓语(predicate)相当于主语的类型的属性,一个谓语对应一个类型,值可以对应这个主语在这个类型下的属性值。在本文中只关注已存在于FreeBase中的三元组。
    2. 数据类型的考虑:通过大量爬取网络数据信息,大部分的数据结构是DOM文档(80%),txt文档(19%)
    3. 信息提取器的考虑:由于提取器的三个任务(三元组识别、实体链接、谓语链接),因此对于不同类型的数据,采用不同的提取器。共考虑12个提取器(均已经比较成熟,4个是TXT提取器,5个是DOM提取器,2个TBL提取器,1个ANO提取器)。
    4. 提取知识质量的考虑:首先考虑GoldStand(如果一条三元组存在于freebase中,我们就认为这个三元组是正确的,可信的;如果一条三元组(s,p,o)不存在于freebase中但(s,p)对存在于freebase中时,则认为这一条不可信且避免标记这一个三元组)。对于不同的提取器由不同的准确的,准确度越高的提取器可信度越大。此外越多的提取器提取到同一个三元组,则这个三元组的可信度越大。
    5. 知识融合的定义:给出一系列提取出的三元组,每一条三元组都有一个对应的出处信息(包括提取器、网络来源),知识融合将计算出每一条三元组正确的可能性。
    6. 知识融合与数据融合的对比:首先输入不同,知识融合输入是三维矩阵,数据融合输入是二维矩阵;其次,知识融合的任务是为三元组计算正确可能性,数据融合的任务是判断某一数据值是否正确,是二分问题;此外,知识融合的范围十分巨大。
    7. 数据融合方法的考虑:本文考虑三种数据融合方法VOTE、ACCU、POPACCU
    8. 对数据融合方法的改造:由于数据融合方法的输入是二维矩阵而知识融合的输入是三维矩阵,则在知识融合中,我们将(提取器,url)合并作为数据来源,称为出处;三元组(s,p,o)中的(s,p)作为数据项。其次是可能性的计算,某一个三元组T的数据项的出处有n个,三元组的出处有m个,则三元组T的可能性是m/n。最后将MapReduce应用于这三种方法。
    9. PR线:按照预测可能性的降序对三元组排列,同时考虑三元组的精确度和召回率。但是由于侧重精确度时召回率会下降,侧重召回率时精确度会下降,因此则考虑曲线下方的面积。
    10. 校准线:考虑预测可能性和真实可能性,真实可能性(有可能在这里进行改进)的计算是将三元组分为i+1个组,计算每一组中结果为真的三元组占比作为这一组的真实可能性
    11. 首先进行实验测试三种方法,发现VOTE对于大部分的正确三元组都低估了可能性,此外对于只有少量出处的三元组的可能性估计过高。ACCU和POPACCU的问题在于经常过高估计导致错误的反例和错误的正例太多。
    12. 改进措施:增大出处的粒度从而增加出处的数量;对出处进行筛选,过滤低可信度的出处以及在计算可能性时未更新初始可能性的出处;借助黄金标准(freebase)
    13. 大部分错误的正例是由于数据项有多个值造成的,POPACCU仅对其中某一个进行计算

1.3   论文解决问题的过程

1.4   论文使用的实验方法

1.5   实验最终结果的评估

1.6 论文的后续工作

  a . 分清错误来源于提取器或是url

  b. 识别提取器之间、数据来源之间的关系

  c. 考虑存在等级关系的值空间

  d. 对提取器的可信度进行评估

二、   论文创新点

  1. 将DF的方法运用于KF
  2. 对运用于KF的方法进行改进

三、   建议阅读本文的参考文献

[11]、[14]、[20]

猜你喜欢

转载自www.cnblogs.com/hwx1997/p/12444072.html