论文浅尝 | TransO:一种具有本体信息约束的知识驱动表示学习方法

78fd5806d7f26b4074485632549a4c3c.png

笔记整理:张钊源,天津大学硕士

链接:https://doi.org/10.1007/s11280-022-01016-3

动机

知识图的表示学习技术对于在复杂网络数据应用场景中构建知识驱动决策至关重要。大多数现有方法主要关注结构化信息,而忽略了丰富的本体信息约束和补充的重要值,然而,本体信息是构建知识驱动的决策过程的关键。因此,本文提出了一种新颖的本体信息约束知识表示学习模型 TransO,它可以显式地有效地对关系进行建模并无缝地结合丰富的本体信息来提高模型的性能并保持较低的模型复杂度。此外,针对实体类型、关系和层次信息提出了具体的约束策略,有效地实现KGs的推理和完成,构建了知识驱动的决策,更符合人类知识在复杂网络应用中的逻辑。本文在两个公共数据集上进行了链接预测和三元组分类的实验。实验结果表明,本文提出的方法具有比现有方法更好的性能。

亮点

(1)本文提出了一种新的本体信息约束知识表示学习模型TransO,它可以显式地建模关系,并在KGs中无缝地结合丰富的本体信息,提高模型性能,保持较低的模型复杂度。

(2)分别为实体类型、关系和层次信息提出了具体的约束策略,可以有效实现KGs的推理和完成,构建知识驱动的决策,更符合人类知识在复杂网络应用中的逻辑。

概念及模型

TransO 模型的总体框架图如图1所示。具体来说,TransO 模型通过实体投影矩阵映射实体的一般向量表示,以便它们的向量在每个维度上进行缩放,从而为在不同关系上表示的相同实体实现不同的属性。此外,TransO 模型为每个关系引入了一个投影矩阵,用于保持实体的一般表示和关系的相应向量以满足h + r ≈ t。值得注意的是,如果只投影实体向量而不处理关系的向量表示,它将减慢整个模型的收敛性。此外,本体信息约束将操作和处理投影矩阵,投影矩阵的引入有助于嵌入本体信息以提高模型表示学习能力。

f2d452ab0bcb092613adbbd66a7e501a.png

图1  TransO总体架构图

关系和类型约束

对于现实世界中的三元组数据,特定的关系约束了实体类型rdf:type的语义信息,该实体类型是本体信息中的rdf:domain和rdfs:range。实体William Shakespeare有很多类型,如Writer和Award Nominee,如图2所示。在三元组( William Shakespeare、written、Romero and Juiet ) 中,显然,实体William Shakespeare的类型Writer与这个三元组更相关,也就是rdf:domain应该约束实体William Shakespeare类型主要代表作家的特征和属性。

c306819fc9f1339daa756d81be526efb.png

图2 实体类型和关系之间的连接示意图

在知识嵌入过程中,结合本体信息rdfs:domain和rdfs:range约束将大大提高复杂异构数据场景下决策过程的效率和准确性。基于此,本文定义了一个重要性权重来实现本体信息rdfs:domain和rdfs:range的作用来约束实体类型:

4a25733d9d9e4f9526e295be13973b9c.png

其中,count(⋅)是计算实体类型出现频率的计数函数。值得一提的是,这种重要性权重更灵活,也可以使用其他功能来计算,例如注意力机制。本文利用计数函数来满足一定的逻辑要求,同时又便于计算。

本体信息rdfs:domain的约束是通过头部实体类型重要性权重操作类型投影矩阵  实现的。

ac583e671c66042dc720334780c0f555.png

其中  是对应于实体第i种类型的投影矩阵,Crh表示   头部实体由于本体信息rdfs:domain的约束而只能表示的一组类型。

类似地,本体信息rdfs:range的约束是通过尾实体类型重要性权重操作类型投影矩阵实现的。

d632b582b38f1461dc168ddf59f407e6.png

其中  是与实体的第i种类型相对应的投影矩阵,  表示尾部实体由于本体信息rdfs:range的约束而只能表示的一组类型

层次结构约束

基于 TKRL 模型中递归层次编码器和加权层次编码器的两个层次类型编码器思想,我们设计了分层类型 rdfs:subClassOf 约束和层次关系 rdfs:subPropertyOf 约束的分层编码策略以及知识嵌入模型。

实体类型具有不同的层次结构,可以由本体信息 rdfs:subClassOf 约束,如下所示:

4d44655d2a47ed3b1ad695844a3b253b.png

其中m是层次结构中类型c的层数,  是第i个子类型  的投影矩阵。

在知识图谱中,关系还有一个层次结构,可以由本体信息rdfs: subPropertyOf约束,不同层次深度的关系应该具有不同的重要性,如下所示:

9fb0702da536b41d57895eab8ba2ce66.png

其中 m 是层次结构中关系 r 的层数,  是第 i 个子关系 r(i) 的投影矩阵,β是 r(i) 的相应权重。我们在 r(i) 和 r(i+1) 之间设计了一个比例减加权策略,如下所示:

8944a97d0d3b4d541b9e207234f96448.png

令∑mi=1  β = 1 和 η∈ (0, 0.5)。

实验

链接预测:对于每个测试三元组 (h, r, t) ∈ T ,我们删除头部或尾部实体并将其替换为 KG 中的每个实体 e ∈ E,并根据评分函数计算的分数升序对这些实体进行排名。设rankh(h,r,t)是(h,r,t)在所有头实体替换中的排名,rankt(h,r,t)表示与尾实体替换类似的排名。本文使用了两个主流的评估指标来评估链接预测任务的性能,即所有正确实体的平均倒数排名(MRR)和排名不超过N的正确实体的比例(HITS@N)。具体地说,MRR是倒数排名的平均值:

d8ba068acc7cb5c472992d69c18cd2b7.png

HITS@N测量在损坏头部实体和尾部实体之后,T中排名前t的三元组的比例。

表1 链接预测的评估结果

01b159f43beec7cf8d2fcd5ba5a2ac58.png

实验结果如表1所示。TransO在FB15K数据集和Sports数据集上都取得了最优结果,充分证明了该模型的有效性。在FB15K数据集上,TransO将MRR指标平均提高了2.12%,HITS@N指标平均提高了2.19%;在Sports数据集上,TransO平均将MRR指标提高了3.20%,HITS@N指标平均提高了3.92%。与FB15K数据集的实验结果相比,可以看出TransO不仅在Sports数据集上有更好的性能,而且比最优基线有更显著的性能提升。

三元组分类:本文为每个关系设置不同的特定于关系的阈值δr。对于三元组 (h, r, t),如果分数 f(h, r, t) 低于 δr,则三元组被预测为正,否则为负。通过最大化有效集上的分类准确度来获得每个关系的最佳阈值δr。

表2 三元组分类结果

aee9457cc35c954cf89086d06d2de084.png

从表2 可以看出,TransO 在 FB15K 和 Sport 中都取得了最好的结果,比最佳基线分别提高了 0.54% 和 1.43%。FB15K 上 TransO 的增强似乎不如 Sport 数据集那么大。从数据的角度来看,缺乏两个重要的本体信息 subClassOf 和 subPropertyOf 会导致类似于链接预测任务的情况,这无助于 TransO 准确地构建投影矩阵。相比之下,更丰富的本体信息更充分地补充了 TransO 所需的语义,因此对 Sport 的影响更加明显。

实验结果表明,本体信息可用于推断知识图谱中不存在的事实,从而为知识图谱提供了强大的推理能力。

总结

本文中提出了一种新的知识表示学习方法TransO,它可以无缝嵌入本体信息以提高模型性能。此外,针对实体类型、关系和层次信息设计了不同的编码策略,可以有效地实现知识推理和完成,以构建更符合人类知识逻辑的知识驱动决策。在公共数据集上的实验结果充分证明了我们提出的模型的优越性,其性能优于最先进的方法。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

70e426b770d429382dad55f7b054b53b.png

点击阅读原文,进入 OpenKG 网站。

猜你喜欢

转载自blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/129679453