SLINT:基于模式独立的关联数据的互联系统

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ykyorky/article/details/67635101

摘要:关联数据互连是所有实例的发现,关联数据互连表示现实世界中相同的对象和定位于不同的数据源。由于不同的数据开发者频繁的使用不同的模式来存储资源,因此我们的目标是开发一个模式独立的互连系统。我们的系统自动选择重要的谓词和有效的谓词(比)对作为块和实例匹配的关键。我们系统的主要区别是使用加权同现和自适应过滤实现模块和实例的匹配。实验结果表明,该系统有效的提高了精度和最近一些的召回。同时也对系统的性能和主要步骤的效率进行了讨论。

关键字:关联数据,模式独立,块,互连.

1.引言

       多年致力于关联数据的研究已经为LOD带来了大量的数据。然而,在语义网中最大化的发展关联数据的效率仍然面临许多困难。语义Web仍面临许多困难。当前的挑战之一是整合各个实例数据源构建一个共同的知识体系。当不同的数据源可能含有异构实例的情况下,这些实例是和现实世界中相同的对象相关的,数据集成过程需要检测这样的对象以确保数据的完整性和一致性。检测数据源之间的所有特性是数据互连的任务。数据互连包含两个主要的步骤,blocking和实例匹配。blocking的目的是修剪比较的数量,实例匹配用来确定两个感兴趣实例的匹配状态。

       当前互连方法可以分成两个步骤:依赖于模式[2,7,10]和模式独立[1,3,4,9]。前者要求关于RDF谓词意义的知识(如谓词#preLabel声明对象的标签)和谓词校准(如谓词#preLabel与谓词#name的匹配)。相比之下,后者不需要这些信息,因此它不依赖于人类知识的模式。因为一个关联数据实例是一组RDF三元组(主体,谓词,客体:数据源对象),一个数据源的模式指的是所有使用的谓词的列表,这些谓词同词汇和本体密切相关、每个数据源的模式往往是不同的,即使在有着不同定义域的相同数据源中模式也是不一样的。显然,模式独立方法更适用于当它可以处理各种源或域在没有任何人类指令的时候。同时,互连规则的手册规范经常忽略隐藏的有效的谓词校准。

       我们提出SLINT系统,它使用一个新方法针对模式独立的关联数据的互连。SLINT使用覆盖率和辨别力自动选择重要的RDF谓词。所选的谓词在数据类型调解后相结合来构造谓词校准对。(We estimate the confi dence of predicate alignments to collect the most appropriate alignmentsfor blocking and interlinking.)我们估计谓词校准对的值去为blocking和互连收集最适当的校准对。通过这种方式,实例的集体信心通常是杠杆作用的。blocking也因此更完整、紧凑以及更支持互连。同时,我们为blocking和实例匹配提供自适应滤波技术。在实验中,我们将SLINT和三个系统进行比较,采用OAEI 2011的实例进行实例匹配,结果表明,精度和召回得到了提升。SLINT性能和blocking步骤的效率的实验也进行了描述。论文的组织结构为:下一节是工作的概述。第三节描述了SLINT系统的细节。第四部分是实验结果的评估。第五部分是本文的结论和展望。

2.相关工作

        数据互连是一个早起的研究领域,然而,这个问题最近才引入到关联数据中。Silk[10],一个著名的框架,提供了一个用户定义谓词校准对的接口和相似度指标的匹配。Silk被用做LDIF[8]的一个主要构件,LDIF是多关联数据源继承框架。最近,Isele和Bizer改进了他们的Silk通过应用一个自动链接规则生成器,这个生成器使用了遗传算法[3]。在上下文互连中为适应度函数和遗传规划的具体转换适当的建模是一项非常有趣的工作。这项工作使Silk成为独立模式。针对相似的对象,RAVEN[4]最小化人类的管理工作采用积极的学习,这是一种无监督学习过程[6]。同时,Nikolov等人也针对研究目标采用遗传算法。针对独立模式的目标,Nguyen等人建议使用决策树设计来确定两个实例的匹配状态。[5]

       Zhishi.Links[7]是当前最先进的匹配器之一。这个系统采用Silk的预匹配步骤,通过使用对象的标签来组织相似的实例,比如说采用skos:preLabel或schema:label标签,之后,一系列复杂的语义相似度被用于匹配。而第二个最好的匹配器是SERIMI[1],SERIMI是一个模式独立系统,它采用熵和RDF的对象相似度来选择RDF谓词和与之相对应的谓词校准对。AgreementMaker[2]是一个本体匹配和实例匹配系统。AgreementMaker首先通过对比实例的标签来生成预选集,然后这些预选集被分成更小的子集,在子集中,每一对匹配的谓词将会用来生成最终的校准对(平面图)。

       大多数以前的互连系统都不会深入的去研究blocking这一步骤,blocking是用来生成实例潜在的特征对。Song和Hen关注blocking模式关于关联数据互连的并行独立工作[9]。这是一个非常有趣的想法,当研究者们提出采用无监督学习来最大化blocking keys的有效性。blocking keys是RDF谓词的组合。研究者们对一些大型的数据集进行实验并证明了可伸缩性。


            一般来说,依赖于模式的方法通过比较指定的属性来比较两个实例。也就是说,这种方法可以检测到几乎所有正确的特征对但是在高度模糊的数据源中精度可能会很低。原因是一些有效的信息会被忽略,因为经常手动谓词对齐不是一个最优解。相比之下,独立模式方法对数据进行复杂的分析可以调解精度和召回。虽然这些独立模式方法需要收集谓词校准对,当收集的信息经常使用的话匹配将会更有效。比较SLINT和以前的互连系统,最明显的区别是谓词的选择、谓词的校对以及针对blocking和互连的自适应过滤。在接下来的一节中,我们将会描述SLINT这些元素的细节。

3.基于独立模式的关联数据的互连系统

           这个部分描述SLINT系统。源数据Ds和目标数据Dt的互连过程如图1所示。在这个图中,小圆圈和三角形分别代表实例和他们的RDF谓词。每一个步骤的输出对应着被圈的大圆。SLINT系统由四个步骤组成。互连过程始于谓词的选择,被选择的谓词都是从每个数据源中的所有谓词中收集重要的谓词。在第二步中,谓词校准,被选择的谓词依照它们的数据类型相结合构建原始的谓词校准对。我们评估每个原始校准对的confidence来衡量它的适当度。一个原始的校准对的confidence满足筛选条件就会被称为key alignment.这些key alignments提供更多的有效信息在blocking和实例匹配过程中。加下来,blocking旨在通过产生实例的特征预选集来减少对比的数目。实例匹配之后只需要发现特征对来验证检索到的预选集。一下是每个步骤的细节。

3.1 谓词选择

这一步的任务是从模式中找到最重要的谓词。这些谓词中包含了出现在感兴趣的数据源中的所有谓词。我们使用两个标准来确定谓词p的重要性水平。这两个标准分别为:coverage(p;D)和discriminiability(p;D)。公式1和公式2是这些标准的解释当考虑谓词p和数据源D。


在这些公式中,X代表一个实例,是一组RDF三元组<s;p,o>(主体,谓词,客体).D是感兴趣的数据源,是一系列实例。我们收集有着较高的覆盖和辨别力的谓词从每个输入源中。如果谓词p满足公式3中的条件就会被选择,公式3继承自文献[9]。

(cov(p;D) ) ^ (dis(p;D) ) ^ (HMean(cov(p;D); dis(p;D))  ): (3)


Song 和Hen关注学习blocking key主要通过迭代来最大化一组谓词的覆盖率和辨别力。在我们的系统中,我们使用和他们相同的辨别力函数以及稍微不同的覆盖函数。对于公式1中的份子,他们使用的是RDF主体的数目,我们使用的是实例的数目,因为我们的目标是找到实例中频繁使用的谓词,而不是RDF主体。

     重要的谓词将用于声明对象的共同属性和不同信息。因为覆盖率和辨别力分别表示前者和或者,因此它们的结合适合对象的谓词选择。如果一个谓词有很高的覆盖率和很低的辨别力,它将不是重要的谓词。关于这种类型的谓词的一个例子是rdf:type。这种谓词频繁被使用,但是它通常描述值域范围受限的各种RDF对象当在相同的定义域范围内观察实例时。

3.2 谓词校准

        在这一步,我们寻找源数据和目标数据中合适的谓词校准对。对齐的两个谓词被认为是适当的,如果感兴趣的谓词描述的是实例的相似属性。从源数据和目标数据中挑选的谓词,我们连接每一个类型匹配对,选择confidence(相似度值)高于阈值的比对。被选择的谓词校准对都被称为key alignments。校准对的confidence(相似度值)是RDF代表的对象之间的Dice系数,RDF对象由其形成的谓词来描述。公式4是conf(ps,pt),这个公式是用来计算谓词得到校准。ps是源数据的谓词,pt是目标数据的谓词。


在上面的公式汇总,R是这个函数,这个函数返回RDF对象代表的元素。R的返回值取决于谓词的类型。我们将谓词划分为5种不同的类型:String,URI,decimal,integer和date。这种划分是基于现实世界中各种数据类型。

猜你喜欢

转载自blog.csdn.net/ykyorky/article/details/67635101