6 知识融合

知识融合Konwledge Fusion

目标:融合各层面的知识

合并两个知识图谱(本体),需要确认:

1、等价实例sameAs

2、等价类、子类subClassOf

3、等价属性、子属性subPropertyOf

同一实体来源于不同知识库,KG的构建经常需要融合多种不同来源的数据

实体对齐是知识图谱融合的主要工作

KG中可以复用其他KG中的标签

跨语言知识融合

知识在线融合

Google Konwledge Vault

主要挑战:数据质量的挑战/数据规模的挑战

知识融合竞赛:OAEI本体对齐竞赛

知识融合的基本技术流程

本体对齐+实体匹配

数据预处理->分块->负载均衡->记录链接->结果评估->结果输出

一、数据预处理:

语法正规化

数据正规化(缩进/转义符/正式名....)

二、记录链接:

1、属性相似度

1)编辑距离:

Levenshtein distance最小编辑距离

用最少的编辑操作将一个字符串转换成另一个

是典型的动态规划问题

D(i,j)=min[D(i-1,j)+1.D(i,j-1)+1,D(i-1,j-1)+1]

Edit Distance with affine gaps

Dice系数用于度量两个集合的相似性

Jaccard系数适合处理短文本的相似度

2)基于向量的相似度

TF-IDF评估某个字或某个词对一个文档的重要程度

2、实体相似度

1)聚合:加权平均/手动指定规则/分类器

2)聚类:

层次聚类(SL算法/CL算法/AL算法)

相关性聚类(最大留,最小割)

Canopy(分块)+K-means

桥梁:预连接实体对(训练数据):联合知识嵌入,双向监督训练

三、分块:

Falcon-AO

基于hash函数的分块

常用hash函数:

first n-grams

n-grams

集合多个简单的hash函数

邻近分块

Canopy聚类

四、负载均衡

保证所有块中数量相当

五、结果评估

准确率、召回率、F值、运行时间

典型知识融合工具简介

本体对齐:Falcon-AO

四类匹配算法:V-Doc虚拟文档/GMO比如难题RDF图结构匹配/I-Sub编辑距离的字符串匹配/PBM分治的大本体匹配

实体匹配:Dedupe

指定谓词集合和相似度函数

训练Blocking:通过Red-Blue set cover 找到最优谓词集合来分块

实体匹配:Limes

基于度量空间的实体匹配发现框架

实体匹配:Silk
 

发布了66 篇原创文章 · 获赞 28 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/qq_36329973/article/details/81805769