文献阅读笔记(三)

2015 Information Fusion_Faceted fusion of

RDF data笔记整理

一、   论文整理思路流程

1.1   论文的相关研究工作

  1. 距离匹配的RDF融合算法
  2. 基于内联的RDF融合算法
  3. 基于规则限制的RDF融合算法
  4. RDF数据碎片化:特定主题的RDF数据分散在众多不同的数据集中,每一个数据集中的RDF数据仅包含主题的某一个方面。
  5. 将分散的RDF数据根据不同的方面整合到同一主题中
  6. 从RDF搜索引擎返回的结果中构造TRG(特定主题的RDF图)然后使用RDF分割算法发现一系列方面。
  7. 使用RDF分割算法发现一系列方面。
  8. 对于TRG的分析:在TRG中,节点是三元组的s或者o,边则是对应三元组的p,一条边及两端顶点构成一条三元组。而在TRG中边被分为两种类型,一种反映了s与o的关系,另一种则反映了两个s之间的关系。TRG图可以仅考虑s之间的边而被分割为结构图。
  9. 关于使用的数据集:通过从网络爬取数据获得六个计算机领域主题的数据集,首先人工标注出各个主题的方面,用于之后的方法对比
  10. 关于获得的TRG图:发现每一个节点的平均的度是2到3.5,98%的节点是孤立的;此外两个相连接的顶点大部分(96%)都指向同一个方面。此外根据Jaccard相似度计算得到两节点相似度分数越高越可能指向同一个节点(由此可以设置一个阈值)。
  11. 方面发现算法:将RDF图分割为k个不相交的子图,然后根据相邻节点同质性和相似节点同质性,将TRG分割为结构图和数据图;数据图根据相似度计算出一系列的方面称为数据方面;在结构图中如果一条边链接两个子图,且两个顶点分属不同方面,则可以将这两个方面合并。
  12. RDF方面发现算法具体过程见笔记本

1.2   论文主要解决的问题

1.3   论文解决问题的过程

1.4   论文使用的实验方法

  1. 关于人工标注:先给出标注规则,然后两个人独立标注同一个主题,若两人出现标注冲突则提交给第三人标注并作为最终标注结果。
  2. 一致性评估:人工标注的方面集和算法发现的方面集进行对比,对比指标使用NMI
  3. 方面发现评估:使用精确度、召回率、F1指标进行评估与之前提到的三种方法进行对比。同样在算法标注和人工标注之间进行评估
  4. 本文提出的FF方法较前文提到的三种方法更为有效(考虑了TRG的拓扑属性,并且同时考虑了相似度以及拓扑属性)
  5. 在F1、精确度、召回率这三个指标中,对六个主题的方面提取融合,FF均优于前文的三种方法。
  6. 将FF与实体分辨整合
  7. 将FF整合扩展到其他领域

1.5   实验最终结果的评估

1.6   论文的后续工作

二、   论文创新点

  1. 提出了TRG的方面发现算法
  2. 发现了TRG的相邻节点同质性和相似节点同质性这两个拓扑属性
  3. FF算法同时考虑了这两条属性

三、   建议阅读的参考文献

[12]

猜你喜欢

转载自www.cnblogs.com/hwx1997/p/12444077.html