呆萌的图模型学习——基本概念(一)

1. 图的基本概念

  • 节点

    结点可以分为两类:隐含结点和观测结点。边可以分为有向边或无向边。从概率论的角度来看,概率图模型是一个概率分布,图中的结点对应于随机变量,边对应于随机变量的相关性关系。给定一个实际问题,我们通常会观测到一些数据,并且希望能够挖掘出隐含在数据中的知识。那么怎样才能使用概率图模型挖掘这些隐藏知识呢?通常情况下我们会构建一个图:用观测结点表示观测到的数据,用隐含结点表示潜在的知识,用边来描述知识与数据的相互关系,最后获得一个概率分布。给定概率分布之后,通过进行两个任务获取知识:即推断 (给定观测结点,推断隐含结点的后验分布)和学习 (学习概率分布的参数)

    想了解概率图模型?你要先理解图论的基本定义与形式: https://zhuanlan.zhihu.com/p/26133450

    • 有向 Directed
      • 方向
        • 出度 out-degree:自己指向别人
        • 入度 in-degree:别人指向自己
      • 连接性
        • 强连接 Strongly connected:A可以到B,B可以到A(A指向B,B指向C,C指向A,即AB之间为强链接);如果一部分节点之间都可以形成强链接,这部分节点可以组成一个“最大连接部分”(Strongly connected components)
        • 弱连接 Weakly connected:不是强连接,即为弱连接
    • 无向 Undirected
  1. 有向图也称为贝叶斯网络(有向无圈),也称信度网络或信念网络;无向图也称为马尔科夫网络。

    概率图模型体系:HMM、MEMM、CRF: https://zhuanlan.zhihu.com/p/33397147

  2. 二部图 Bipartite graph:两个主体,既有内部的连接,也有外部的连接

2. 特殊结构的网络

随机图:随机图是指由随机过程产生的图 https://zh.wikipedia.org/wiki/%E9%9A%8F%E6%9C%BA%E5%9B%BE

无尺度网络:https://zh.wikipedia.org/wiki/%E6%97%A0%E5%B0%BA%E5%BA%A6%E7%BD%91%E7%BB%9C

扫描二维码关注公众号,回复: 12814793 查看本文章

3. 衡量网络的一些指标

  1. 度的分布:degree distribution

    度的基本概念:一个节点上连了多少条边,它的度就是多少。

    度的分布:两个节点之间有链接,则度为1,否则为0。因此n个节点之间有n-1个连接关系,服从二项分布。当n取正无穷,则度的分布服从幂律分布 https://zh.wikipedia.org/wiki/%E5%BA%A6%E5%88%86%E5%B8%83

  2. 路径长度、图的直径:path length

    概念:图中任意两点之间的最小距离,其中有向图中 d(u,v)不一定等于d(v,u)

  3. 聚合系数(积聚因子):clustering coefficient

    计算公式是:N个节点的总边数/N个节点之间可以连接的最大边数,其中最大边数一般是N的阶乘

  4. 连接的组件:connected components

4. 基于图结构的图表示学习

核心思想是使用图论、数据挖掘等方法使学习后的向量尽可能多的保留图中的拓扑信息,以前的思想是使用1-hot或n-hot,但是复杂度高,容易组合爆炸(维度爆炸),因此现在主要使用随机游走采样获得一大堆序列(向量)来表示图。

deepwalk

使用随机游走的方法等概率跳

node2vec

使用人工权重取代等概率跳转

struc2vec

根据已有的图,在保留局部特征的前提下构建新图,然后做随机游走

metapath2vec

在异构图中学习特征

5. 基于图特征的图表示学习

GCN

GNN

  1. Basic gnn
  2. self-loops GNN

参考资料

随机图:

  1. http://www.qzu5.com/r.htm
  2. https://zh.wikipedia.org/wiki/%E9%9A%8F%E6%9C%BA%E5%9B%BE
  3. https://blog.csdn.net/qq_34213260/article/details/107472115

猜你喜欢

转载自blog.csdn.net/weixin_35757704/article/details/114821610