论文阅读:知识图谱的推荐系统综述

知识图谱的推荐系统综述

常亮,张伟涛,古天龙,孙文平,宾辰忠

(桂林电子科技大学广西可信软件重点实验室, 广西 桂林 541004

摘要:

搜索引擎和推荐系统是解决信息过载的代表技术。传统的搜索引擎在本质上来讲是帮助用户过滤和筛选信息,这种方式满足了大多数人的需求,但没有提供个性化的服务。相对于传统搜索引擎来说,推荐系统可以兼顾个性化需求和解决信息过载问题。推荐系统是信息过滤系统的一个 子集,目的在于根据用户的喜好、习惯、个性化需求以及商品的特性来预测用户对商品的喜好,为用户推荐最合适的商品,帮助用户快速地做出决策,提高用户满意度。推荐系统的价值在于能够提供尽量合适的选择或者是推荐而不需要用户明确提供他们所想要的内容。 

2012 年 5 月 17 日谷歌正式提出了“知识图谱”这个术语。知识图谱旨在描述真实世界中存在的各种实体或概念,以及他们之间的关联关系。其中,每个实体或概念用一个全局唯一确定的 ID 来标识,每个属性-值对用来刻画实体的内在属性,而关系用来连接两个实体,刻画它们之间的关联。知识图谱可以融合多种数据源丰富数据语义信息,并且可以结合推理得到的隐含信息为用户提供服务。随着信息检索、智慧城市等应用领域的发展要求,将知识图谱应用于这些领域以提高用户体验和系统性能,成为学术界和工业界关注的热点。 

该推荐有 3 个组成要素:用户知识图谱、项目知识图谱、推荐方法。在此基础上,我们给出了基于知识图谱的一个推荐系统模型,如图 1 所示。该模型分为客户端和服务器端,客户端收集用户的原始数据(包括浏览数据、上下文数据如时间、用户状态等)上传至服务器端进行处理。服务器端一方面从各个垂直网站及百科网站中进行相关数据搜集,构建项目知识图谱;另一方面,对用户偏好进行获取,建立用户知识图谱;此外,通过分析推理的方法获取上下文信息,利用 GPS 定位来获取当前用户地理位置息等。最后,综合上述信息,通过推荐产生器向目标用户推送其感兴趣的项目,并基于用户反馈对推荐性能进行评估,进一步调整推荐产生器,以适应用户偏好。


依据推荐过程中知识图谱表现形式,本文将文献中的基于知识图谱的推荐方法大致分为两大类基于本体的推荐生成、基于开放链接数据(linked open data, LOD)的推荐生成。此外,鉴于近年来将知识图谱嵌入低维向量空间的方法在推荐领域扮演的角色越来越大,本节将基于图嵌入的推荐生成单独作为一类来考察。

本体作为知识图谱的一种体现形式,强调的是概念之间的层级关系,有逻辑学和语义学的基础,支持简单的自动推理。基于本体的推荐生成的主要思路是利用本体中细粒度的对概念层级关系的描述,通过对概念的细粒度的分类描述来更加精准的对实体特征进行表示,从而挖掘出事实中蕴含的深层次信息。融入现有的基于内容的推荐、基于协同过滤的推荐方法中。最后结合用户当前的上下文信息生成推荐。

基于 LOD 的推荐生成技术主要思路是:将链接数据库中丰富的语义信息融入到现有的方法中,着重考虑用户偏好、项目之间属性相似度。通过利用LOD 中大量相互关联的数据,更加精细化的衡量资源之间的相似性,挖掘用户的偏好,最后结合上下文信息生成推荐结果。因此在引入 LOD 之后,语义相似度的计算成为关键所在。目前,语义相似计算的方法主要包括链接数据语义距离(Linked Data Semantic Distance)、基于隐式语义反馈的路径算法(SPrank)等。

László等较早将图嵌入技术应用于推荐领域。将 Movielens 中电影与用户嵌入到同一个向量空间,进而计算用户与电影的空间距离,生成推荐列表。

虽然近年来国内外研究者在基于知识图谱的推荐系统取得了许多进展。但总的来说,目前仍然面临以下重点和难点问题。 

1)对用户偏好的精准建模问题。知识图谱可以融合多源异构信息,包括丰富的用户信息及用户与项目的交互信息;如何全面考虑用户与用户、用户与项目之间的联系,进一步提高推荐的准确度,是未来的研究重点。 

2)对大数据的高效处理问题。由于数据生成速度快,而且多源数据融合过程中引入了更多的噪声和冗余,使得传统推荐算法中采用的精确计算方式越来越难以应对,概率模型统计方法将可能发挥更为重要的作用[43]。 

3)推荐系统的效用评价问题。对传统推荐系统的评价指标主要是准确度和效率,通常采用的方法有 MAE、RMSE、关联度等。这些指标当然也可 以用于基于知识图谱的推荐系统,例如文献[16]使用了准确率和召回率来表征推荐系统的准确度。然而,由于不同领域的推荐系统面临的实际问题不同,相应地使用了不同的数据集,使得难以形成统一的效用评价标准[44]。 

4)如何通过深度挖掘和相关性知识发现提高推荐效果。由于知识图谱本身特点,相对于因果关系挖掘,其更适合于相关关系挖掘。通过从知识图谱中深度挖掘项目之间、用户之间、以及项目与用户间的深层次关系,获得更多的相关性结果,有助于为用户进行个性化推荐,在提高推荐结果多样性的同时保持较高的推荐准确性[45]。 

5)推荐系统的可扩展性。可扩展性一直是推荐系统应用中面临的难点问题[46]。在传统推荐系统中,随着用户与项目数量的增加,会使得计算量显著增大。目前主要的解决方法有聚类、数据集缩减、降维等。在知识图谱中,用户之间、用户与项目之间随时随地的信息互动会产生大规模的数据集;   


猜你喜欢

转载自blog.csdn.net/u011630575/article/details/80941776