图表示学习和异质信息网络

图表示学习
异质信息网络

选自
[1]李青,王一晨,杜承烈.图表示学习方法研究综述[J/OL].计算机应用研究:1-16[2023-05-11].DOI:10.19734/j.issn.1001-3695.2022.09.0504.
[2]石川,王睿嘉,王啸.异质信息网络分析与应用综述[J].软件学报,2022,33(02):598-621.DOI:10.13328/j.cnki.jos.006357.

图表示学习

图表示学习是指将一个图中的节点或者整（子）图映射到低维向量空间的过程，其主要目是使低维向量空间中的几何关系能够反映原始图中的结构信．优化后的低维向量空间所学习到的嵌入向量能够作为特征输入来处理下游任务．在解决特定任务时，使用图表示学习技术进行学习的对象也有所不同，可以将图表示学习分为以下３种：

节点嵌入：图数据中的节点往往表示了各类重要实体，这些节点本身具有大量的属性作为其特征，通过捕捉节点的属性，对其进行表示学习以获得更低维度的节点嵌入，能够对现实中的实体进行更有效的分析．
边嵌入：实体间存在的或紧密或疏远的关系，可借助于图的边来表示．边所表示的不同依赖关系存在着重要性大小的差异，使得部分边自带有权重属性．因此，在对边进行表学习时，可获得边本身的属性特征及所关联节点的特征来进行补充表示．
子图嵌入：子图嵌入即将子图作为一个整体进行表示学习，获得低维嵌入向量．该方法首先需要根据一定的规则构造适当的子图，接着在子图中捕捉图中节点的属性和结构特征．在处理的数据量较大时，子图有时用于代替整图，能够大大减少计算成本．

基本概念

图： $G =< V, E, T, X >$ ， $V$ 是节点集合， $E$ 是边集， $X$ 表示属性矩阵。函数 $\varphi:V\rightarrow T_v$ 和 $\phi:E\rightarrow T_E$ 分别对节点和边进行映射，其中 $T_V$ 表示节点类型的集合， $T_E$ 表示边类型的集合。若 $T_V=T_E=1$ ，则G是一个同构图，若 $T_V|+|T_E|>2$ ，则G是一个异构图。

邻接矩阵 $A$ ， $A [i] [j] = 1$ 表示 $v_i$ 和 $v_j$ 之间有边，否则没有边

度矩阵 $D$ 是一个对角矩阵, $D[i][i]=\sum^{|v|}_{j=1}A[i][j]$ 表示 $v_i$ 的度

图拉普拉斯矩阵为 $L = D - A$

解释：拉普拉斯矩阵的对角线上取值为节点的度；如果节点 $v_i$ 和 $v_j$ 相邻，那么取值为-1；拉普拉斯矩阵为对称的矩阵。谱图理论是图论与线性代数相结合的产物，它通过分析图的某些矩阵的特征值与特征向量而研究图的性质。拉普拉斯矩阵是谱图理论中的核心与基本概念，在机器学习与深度学习中有重要的应用。

图表示学习的目的是找到一个映射 $f:v_i \rightarrow y_i \in R^d$ ，其中 $y_i$ 是 $v_i$ 的嵌入向量，嵌入维度 $d\ll |V|$

一阶相似度：如果 $（v_i，v_j)\in E$ ，那么 $v_i$ 和 $v_j$ 之间的一阶相似性由两节点之间的边权重决定；否则 $v_i$ 和 $v_j$ 之间的一阶相似性为０．一阶相似性捕捉了节点之间的直接邻居关系．

扫描二维码关注公众号，回复： 17346722 查看本文章

二阶相似度和高阶相似性：二阶相似度捕捉每对节点之间的两步关系．对于每个节点对 $v_i，v_j)$ ，二阶相似度是由两个顶点共有的相同的邻居节点数决定的，它同样可以用 $v_i$ 到 $v_j$ 的两步迁移概率来度量．进一步，高阶相似度捕捉每对节点之间的ｋ步关系（ｋ≥３），能更好地保留图的全局结构．

异质信息网络

大多数工作将信息网络建模成同质信息网络(homogeneous information network，同质网络)，即网络中仅包含相同类型的对象和链接, 例如作者合作网和朋友圈等. 同质网络建模方法往往只抽取了实际交互系统中的部分信息，或者没有区分对象及其之间关系的异质性, 从而造成不可逆的信息损失。

近年来, 更多的研究者将多类型且互连的网络化数据建模为异质信息网络(heterogeneous information network, 异质网络),实现对现实世界更完整而自然的抽象，例如, 文献数据中包含作者、论文、会议等不同类型的对象, 这些对象间存在多种类型的关系: 作者和论文间的撰写/被撰写关系、会议和论文间的出版/被出版关系等. 利用异质网络建模这种类型丰富且交互复杂的数据, 可以保留更全面的语义及结构信息.

相较于同质网络, 异质网络建模带来了两方面的好处：

异质网络是融合信息的有效工具，不仅可以自然融合不同类型的对象及其交互，而且可以融合异构数据源的信息，特别地，随着“大数据”时代的到来，在“大数据”中许多类型不同的对象互联，将这些交互对象建模为同质网络很困难，但可以很自然地利用异质网络建模；同时，不同平台产生的异构多源“大数据”仅捕获了部分甚至是有偏差的特征，异质网络也可以自然融合这些异构数据源的信息，从而全面刻画用户特征。因此，异质网络建模不仅成为解决大数据多样性的有力工具，而且成为宽度学习的主要方法；
异质网络中多类型对象和关系共存，包含丰富的结构和语义信息，从而为发现隐含模式提供了精准可解释的新途径，例如，推荐系统的异质网络中不再只有用户和商品这两种对象，而是包含店铺、品牌等更全面的内容；关系也不再只有购买，而是含有收藏、喜爱等更精细的交互。

基本概念

信息网络：为一个具有对象类型映射函数 $\varphi:V\rightarrow A$ 和关系类型映射函数 $\phi:E\rightarrow R$ 的有向图 $G=<V,E,\varphi,\phi>$ ，其中，每个对象 $v\in V$ 属于对象类型的集合 $A$ 中的一个特定对象类型，每条链接 $e\in E$ 属于关系类型集合 $R$ 中的一个特定关系类型。

异质/同质网络：若信息网络的对象类型数|A|>1或者关系类型数|R|>1，则称其为异质网络；否则，称为同质网络。

网络模式：网络模式记为 $T_G=(A,R)$ , 是带有对象类型映射 $\varphi$ 和关系类型映射 $\phi$ 的信息网络 $G=<V,E,\varphi,\phi>$ 的元模式.

图1给出了文献数据所构建的信息网络，(b)说明了描述文献异质网络对象及其之间关系类型的网络模式，(a)是(b)的网络实例。在该实例中，包含 3 种类型的对象: 论文(P)、作者(A)和会议(C). 链接连接不同类型的对象，而链接的类型由两种对象类型间的关系定义，例如，作者和论文间的链接表示撰写或被撰写的关系, 而会议和论文间的链接表示出版或被出版的关系

语义探索方法

元路径

元路径 P 是在网络模式 $T_G=(A,R)$ 上定义的路径, 记为 $A_1\stackrel{R_1}{\rightarrow} A_2\stackrel{R_2}{\rightarrow}...\stackrel{R_l}{\rightarrow} A_{l+1}$ 同时, 定义对象 $A_1,A_2,...,A_{l+1}$ 间的复合关系 $R=R_1\circ R_2\circ…R_l$ , 其中, $\circ$ 表示关系上的合成运算符.

以图 2 所示的电影推荐异质网络为例. 用户可以通过元路径相连, 如 $U\stackrel{rate}{\rightarrow} M\stackrel{rate^-1}{\rightarrow}U$ ( $U M U$ )路径和 $U\stackrel{rate}{\rightarrow} M\stackrel{direct^-1}{\rightarrow}D\stackrel{direct}{\rightarrow}M\stackrel{rate^-1}{\rightarrow}U$ ( $U M D M U$ )等. 这些路径包含的语义不同, $U M U$ 路径是指用户对同一电影打分(即共同评分关系), 而 $U M D M U$ 路径表示用户对同一导演的电影作品打分.

元路径本质上抽取了异质网络的子结构, 并且体现了路径所包含的丰富语义信息, 因而成为异质网络分析中的基本语义捕捉方法.但是由于其结构简单, 在捕捉更精确或复杂的语义时往往受到限制.

受限元路径

UMU 路径无法刻画精确到某些类型电影的共同评分关系. 因此, 受限元路径应运而生.

受限元路径是基于某种特定约束的元路径, 可以表示为CP=P|C. 其中, P=( $A_1,A_2,...,A_l$ )表示元路径, C表示对元路径 P 中对象的约束. 受限元路径 UMU|M.T=“Comedy”利用“Comedy”标签约束电影, 使得该路径表示用户对喜剧电影的共同评分关系.

加权元路径

元路径并未考虑链接上的属性, 如用户对于电影的评分信息, 从而使得路径实例间链接的属性差异诱发较大的语义差异. 因而, 加权元路径的概念被提出, 以进一步约束链接属性信息.

加权元路径是对关系属性值有所约束的一种扩展元路径, 可以表示为 $A_1\stackrel{\delta(R_1)}{\rightarrow} A_2\stackrel{\delta(R_2)}{\rightarrow}...\stackrel{\delta(R_l)}{\rightarrow} A_{l+1}|C$ .用户 U 与电影 M 间评分关系的属性值可以取 1 至 5 分. 加权元路径 $U\stackrel{1}{\rightarrow} M$ (即 U(1)M)表示用户对电影的评分为 1, 也就意味着用户并不喜欢这部电影; 加权元路径 $U\stackrel{1,2}{\rightarrow} M\stackrel{1,2}{\rightarrow}U$ 则表示用户和目标用户不喜欢相同的电影.

元结构/元图

元路径是定义在元模式 $T_G=(A,R)$ 上的线性序列, 而元结构/元图 M可看作多条有公共节点的元路径组合而成的有向无环图.

对于元路径 UMDMU 和 UMAMU 而言, 只能分别描述两用户对同一导演的电影打分或已打分电影中出现相同演员, 无法同时表述两条元路径蕴含的公共关系: 两用户对于同一导演的电影作品进行了打分并且电影作品中出现了相同演员. 而利用元结构/元图可以描述该语义, 如图 2©所示. 可以看到, 元结构/元图M 是定义在网络模式上的有向无环图.

异质网络表示学习

类比图表示学习的方法

图表示学习和异质信息网络

图表示学习和异质信息网络

图表示学习

基本概念

相关技术

基于降维解析的方法

基于矩阵分解的方法

基于随机游走的方法

基于深度学习的方法

异质信息网络

基本概念

语义探索方法

元路径

受限元路径

加权元路径

元结构/元图

异质网络表示学习

猜你喜欢