Paper Summary: Record Linkage

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/quiet_girl/article/details/79587443

很久之前的记录了,现在发出来,并会继续添加以便查阅~ --2018.11.07

一、Ranking Scientific Articles by Exploiting Citations, Authors, Journals, and Time Information(2013年@AI)

1、论文目的

(1)如何综合各种因素在异构网络上对论文进行排名?
(2)如何利用时间这个特性,因为引用量每天都是变化的,变化的引用量构成了一个动态的网络关系,一个近期才发表的论文,虽然当前的引用量不是很高,但是我们不能只根据引用量计算论文的排名,应该适当提升它的分数。

2、论文主要思想

(1) 构造了3个子网络,包括引用关系网络、论文和作者关系、论文和传媒关系
(2) 使用了pagerank和HITS相结合的思想。
(3) 比较充分的考虑了时间的因素。使用了一些关于时间的策略。

3、论文可参考点

对时间特征函数的设置。

二、A Unified Probabilistic Framework for Name Disambiguation in Digital Library(2012年@TKDE)

本篇论文是清华大学唐杰老师的一篇文章,其算法也是应用在学术网站Aminer上姓名消歧的文章。网站网址:http://www.aminer.cn/

1、论文目的

对搜索某一姓名下的所有文章分类,使真实的同名作者对应其不同的论文。

2、论文主要思想

(1)把论文当做节点,综合考虑节点的相似度以及节点之间的关系,将其Formalize成一个隐马尔科夫随机场,其中论文是可观测变量,论文所属类别(属于哪一个人)是隐变量。基于此模型,提出一种类似KMeans的算法(与Kmeans的不同在于在将某论文分配给某类别时的算法不同,KMeans最大似然平方和,而本篇论文是自定义的节点相似度以及节点间相互关系)
(2)将似然函数中出现的配分函数不可计算的NP-hard问题转化为One-Step Sampling问题(这个主要引用了Hinton在2002年的文章:Hinton G E. Training products of experts by minimizing contrastive divergence.[M]. MIT Press, 2002.)。
(3)提出auto K的算法,K是指具体要把某个姓名下的所有论文分成几个人,这个算法思想与Xmeans比较类似,都是利用了BIC准则。

3、论文可参考点

(1)Xmeans的auto K思想
(2)定义的relationship类型可参考

三、Ranking-Based Name Matching for Author Disambiguation in Bibliographic Data(2013年@KDD)

1、论文目的

Author-name disambiguation的两个主要问题,一个是不同的作者有相同的姓名,同一个作者有不同的姓名。本文主要就是解决Author-name disambiguation的问题。

2、论文主要思想

通过一系列pattern确定两个作者是不是同一作者。本文主要使用的是元路径,基于元路径来确定两个实体的相似度。元路径的pattern需要自己制定,可以转化为矩阵运算的问题,最后基于不同pattern的元路径相似度加权求和进行最终的决策。

3、其他

本文仍然是基于传统的方法,类似于特征工程,里面除了包含大量的特征工程外,将元路径引入其中,可以将路径中的隐藏关系以及路径中跨度较大的关系加入进去。

扫描二维码关注公众号,回复: 4507394 查看本文章

四、CoLink: An Unsupervised Framework for User Identity Linkage(2018年@AAAI)

1、论文目的

对于两个数据源中的用户,进行用户链接。

2、论文背景

(1)有监督方法代价较高,所以本文使用的是无监督的方法。
(2)传统的基于相似度的方法在很多场合下不适用,如:在一个数据源的职位是简写,另一个数据源使用的是全称,对于这样的问题使用传统方法比较相似度为0。
(3)针对的是one-to-one的问题,即认为数据源内容所有用户唯一。

3、论文主要思想

考虑attribute-based model和relationship-based model。
(1)对于relationship-based model使用的比较简单,主要是根据好友中匹配的个数进行连接.
(2)本文主要是attribute-based model,attribute-based model使用了seq3sel model,也就是机器翻译中数据对齐的思想,这样可以解决上面提到的字符没有重复,但是可以根据语义特征等计算准确性从而更好地进行用户链接。除此之外,seq2seq model在训练的时候只需要使用少量正例,不需要使用负例。
(3)二分类问题。

4、论文主要创新点

(1)co-training算法,即首先根据attribute-model产生匹配数据,再根据relationship-model产生匹配数据,接着去掉冲突数据,并不断迭代,直到收敛或者达到阈值要求。
(2)第一次将机器翻译中的Seq2seq-model用于实体连接问题,和机器翻译不同的是,在最后没有输出序列, 因为解决的是二分类问题,所以直接获取的是和不同target匹配的概率值,并基于此概率值使用合适的阈值确定分类结果。

5、其他

(1)在初步筛选之后,随机匹配的F1值达到51.64,应该可以说明数据集本身的质量就比较高,这种方法换到其他问题不一定会有这么好的效果。
(2)co-training和seq2seq都是套用已有的模型,并作出相应的更改,但是对于实体连接领域来说,算是比较前沿的解决方法。

五、ELM-based name disambiguation in bibliography(2015年@WWW)

1、论文目的

论文中的姓名消歧问题。

2、论文主要思想

提出两个策略:①一个分类器训练一个name(OCEN)。②一个分类器训练所有name(OCAN)。使用ELM(极限学习机)技术。
(1)OCEN
构造了三个特征:author name, titles and book titles。
这三个特征的构造都是基于word,比如对于title,把title中的所有词当做特征。
因为特征维度较大,所以使用了PCA进行降维。
(2)OCAN
提出了basic和enhanced特征提取,在basic的特征提取中,只是简单的基于三个属性进行了提取;在enhanced特征提取中,加入了relationship特征。

3、其他

使用ELM,算法暂时没有深入了解,算法相比于单隐层神经网络,在保证学习精度的前提下比传统的学习算法速度更快。

六、Name Disambiguation in AMiner: Clustering, Maintenance, and Human in the Loop(2018年@KDD)

1、论文目的

Aminer系统中论文的作者消歧。

2、论文主要思想

考虑global model和local model。
(1)对于global model,借助负采样的思想,将 ( D i + , D i , D i ) (D_{i+}, D_i, D_{i-}) 三个元素一起训练,使得目标loss最小,从而得到global embedding function。
(2)对于local model,主要是借助Encoder-Decoder的思想,输入是两篇论文的相似关系(输入图的构建借助了特征的相似度,超过设定阈值则说明两篇文章有边连接),目标是优化重构图的邻接矩阵的最小误差。
(3)Cluster size的估计使用了RNN,输入文章,预测这些文章属于的作者数。

3、论文主要创新点

(1)把各种前沿技术运用其中。
(2)应用在成熟的系统中,实用性强。

七、Ethnicity sensitive author disambiguation using semi-supervised learning ( 2016年@KESW )

1、论文目的

数字图书馆中作者的姓名消歧,包括同一个姓名表示不同的人,或者不同姓名指的是同一个人。

2、论文主要思想

论文主要分3阶段:
(1)Blocking
第一阶段就是常规的分块阶段,主要将比较相似的人分到同一个block中,不相似的人分到不同的block中。
(2)Linkage function
第二阶段是根据构造的特征和分类器,学习linkage function,linkage function就是距离函数,这里学习其参数。
这一阶段中涉及训练集的构造。训练集最简单的构造方法是同一训练集中pairwise,label为1;不同训练集的数据pairwise,label为0。但是这样构造训练集比较Coarse-grained,因此采用的方法是:对于同一个block中,若A和B是一个实体,则label为1,否则label为0。
(3)Clustering
使用的是层次聚类,使用的距离计算方法就是(2)中学习到的linkage function。对于最后层次聚类结果的截取,本文使用了3种方法生成:
在这里插入图片描述
其中,
No cut表示的是不经截取的层次聚类的结果。
Global Cut表示的是设置全局阈值,即无论对于哪个cluster,都是用同一个阈值就行截取。
Block Cut指针对每一个cluster,有一个截取的阈值。

3、论文主要创新点

(1)在linkage function步骤中,考虑了不同地区的名称以及种族习惯差异。
(2)在最后的cluster中,除了传统了层次聚类,提出了基于Global和Block的截取方案。

4、个人看法

(1)思路较传统,但是有一些创新细节,比如考虑种族差异的特征等。
(2)实验结果太优秀。

猜你喜欢

转载自blog.csdn.net/quiet_girl/article/details/79587443