【论文分享】小样本半监督图结点分类模型 Meta-PN:Meta Propagation Networks for Graph Few-shot Semi-supervised Learning

CSDN话题挑战赛第1期活动
详情地址:https://marketing.csdn.net/p/bb5081d88a77db8d6ef45bb7b6ef3d7f
参赛话题:论文带读笔记分享
话题描述:分享学习最近、经典的论文,总结自己的学习心得。
创作模板:论文带读笔记


1 Introduction

动机:

  • 在每个类只有少量标记节点的情况下,如何提高图机器学习模型的表达能力来解决小样本半监督节点分类问题是一个亟待研究的问题。但是这是一件很艰巨的事情,主要有两个原因:过平滑和过拟合问题,以及没有辅助知识的问题

贡献:

为了解决上述挑战,本文提出了一种新的图元学习框架,元传播网络(Meta- PN),它超越了GNN标准的消息传递方案,并以一种更有效方式学习节点表示。本文主要有以下贡献:

  1. 我们研究了在小样本设置下的半监督节点分类问题,这在graph ML领域中仍然是一个研究不足的问题。
  2. 我们提出一个简单而有效的图元学习框架元Meta-PN来解决所研究的问题。其核心思想是通过元学习标签传播策略来增强有限的标签数据。
  3. 我们对不同的图基准数据集进行了综合评估,以证实Meta-PN的有效性。结果表明,该算法优于现有的半监督节点分类方法,特别是在资源不足的情况下。

2 Method

Architecture

  • 为了解决小样本半监督节点分类,本文提出了一个叫做Meta-PN的新的框架,该框架由adaptive label propagator 和 feature-label transformer 两个网络构成。通过将传播和转换步骤与两个独立的网络解耦,这种设计固有地允许大的接收域,从而不会遭受性能下降。
  • 基于我们提出的元学习算法,adaptive label propagator 学习利用目标模型的反馈来调整其传播策略,以在未标记节点上推断出准确的伪标签。同时, feature-label transformer 吸收伪标记节点的结构和特征知识,从而解决了小样本半监督学习背后的挑战。

在这里插入图片描述

Adaptive Label Propagator (Meta Learner)

  • 为了使标签信号能够更广泛地传播,我们提出采用标签传播(LP)的思想,对信息丰富的局部和全局结构信息进行编码。与许多gnn采用的消息传递方案类似,标签传播遵循Homophily原则,表示连接的两个节点趋于相似(共享相同的标签)。
  • LP的目标是找到一个预测矩阵 Y ^ ∈ R n × c \hat{\mathbf{Y}} \in \mathbb{R}^{n \times c} Y^Rn×c,这个矩阵与标签矩阵Y一致,同时在图上光滑,使其附近的顶点具有相似的软标签。
  • 现有的标签传播算法不能自适应地平衡每个节点来自不同邻域的标签信息,这在很大程度上限制了模型在学习复杂的现实世界图时的表达能力。为了解决这一问题,我们构建了一个以φ为参数的自适应标签传播器gφ(·),它可以调整不同传播步骤对计算一个节点平滑标签向量的贡献。
  • 最终标签传播策略被表示为: Y ^ i , : = ∑ k = 0 K γ i k Y i , : ( k ) , Y ( k + 1 ) = T Y ( k ) \hat{\mathbf{Y}}_{i,:}=\sum_{k=0}^{K} \gamma_{i k} \mathbf{Y}_{i,:}^{(k)}, \mathbf{Y}^{(k+1)}=\mathbf{T} \mathbf{Y}^{(k)} Y^i,:=k=0KγikYi,:(k),Y(k+1)=TY(k)
  • γ i k \gamma_{i k} γik:k-hop领域节点对结点vi的影响,通过注意力机制得到。
  • K:迭代传播的步数
  • T:转移矩阵,可设置为任意形式的标准化矩阵
  • 标签传播经过K次迭代后,预测的软标签矩阵 Y i ^ \hat{Y_i} Yi^可以捕获到K次之前的邻域标签分布的先验知识。
  • 通过设置注意向量和权矩阵为可学习参数,Adaptive Label Propagator获得了针对每个节点调整其传播策略的能力,最终平滑的标签可以捕获输入图的丰富结构信息。

Feature-label Transformer (Target Model)

  • 将结构知识编码为平滑的标签矩阵 Y i ^ \hat{Y_i} Yi^后,构建Feature-label Transformer θ(·),将节点特征转换为节点标签,进一步获取基于特征的图信息。
  • feature-label transformer f θ f_\theta fθ 是一个多层的神经网络,它以 θ \theta θ为参数,以结点的特征向量 X i X_i Xi作为输入,以预测的结点标签 P i P_i Pi为输出,以Adaptive Label Propagator 生成的伪标签为ground-truth
  • 理想情况下,如果生成的伪标签质量较好,则可以利用伪标签对标记不足的节点进行扩充,避免过拟合,提高模型的泛化能力。与此同时,高质量的伪标记数据不仅对未标记节点的特征模式进行编码,而且还携带信息丰富的局部和全局结构知识,使目标模型能够利用更大的接受域,而不会受到性能下降的影响。
  • 结果表明,该特 Feature-label Transformer在解决小样本半监督节点分类问题上具有良好的性能。
  • 值得一提的是,使用有意义的伪标签训练的目标模型可以看作是GCN的一种特殊变体,它允许使用更少的参数进行更多的传播步骤。

Learning to Propagate

  • 我们的方法的一个关键挑战在于如何学习更好的标签传播策略,以便在未标记的节点上生成伪标签,如果伪标签不准确,目标模型可能很容易与错误标签的节点过度拟合,并遇到严重的性能下降。这个问题也被称为伪标注中的确认偏差问题。
  • 当通过递归选择样本子集来推断准确的伪标签时,重新训练预测模型将会太昂贵和不稳定,因此,如果没有合理地连接两个网络,强制Adaptive Label Propagator推断有意义的标签传播策略来提高特征标签转换器的性能几乎是不可实现的。
  • 在这项工作中,我们提出了一个统一的元学习算法来解决这个问题,允许模型对未标记的节点推断出准确的伪标签,并学习到一个更好的目标模型。从某种意义上说,如果生成的伪标签是高质量的,那么它们的数据效用应该与黄金标记的节点一致。
  • 据此,我们可以推导出以下元学习目标:元学习者生成的最优伪标签应使目标模型在黄金标签训练节点上的性能最大化(使分类损失最小化)。对于每个元标签传播任务,目标是利用target model的反馈(即Feature-label Transformer)为一批未标记节点生成伪标签。 通过在元级上优化Adaptive Label Propagator,可以调整标签传播策略,生成信息丰富的伪标签数据。

Model Learning via Bi-level Optimization

上述元学习目标隐含了一个以 ϕ \phi ϕ为外环参数、 θ \theta θ为内环参数的两级优化问题。

1. Target Model (Inner-loop) Update

  • 给定一批 V U V^U VU中未标记的节点,利用 Adaptive Label Propagator计算出的伪标签作为ground-truth来更新目标模型参数 θ \theta θ θ ′ = θ − η θ ∇ θ J pseudo  ( θ , ϕ ) \boldsymbol{\theta}^{\prime}=\boldsymbol{\theta}-\eta_{\boldsymbol{\theta}} \nabla_{\boldsymbol{\theta}} J_{\text {pseudo }}(\boldsymbol{\theta}, \boldsymbol{\phi}) θ=θηθθJpseudo (θ,ϕ)
  • J pseudo  ( θ , ϕ ) J_{\text {pseudo }}(\boldsymbol{\theta}, \boldsymbol{\phi}) Jpseudo (θ,ϕ):一个batch 伪标记节点上计算的内循环损失。参数 θ \theta θ利用 J pseudo  ( θ , ϕ ) J_{\text {pseudo }}(\boldsymbol{\theta}, \boldsymbol{\phi}) Jpseudo (θ,ϕ)的梯度下降更新

2. Meta Learner (Outer-loop) Update

  • ϕ \phi ϕ θ \theta θ之间的依赖关系允许我们使用 V L V^L VL中的黄金标记节点来计算元级(外环)损失。 ϕ \phi ϕ的更新方法为:
    ϕ ′ = ϕ − η ϕ ∇ ϕ J g o l d ( θ ′ ( ϕ ) ) \phi^{\prime}=\phi-\eta_{\boldsymbol{\phi}} \nabla_{\phi} J_{\mathrm{gold}}\left(\boldsymbol{\theta}^{\prime}(\phi)\right) ϕ=ϕηϕϕJgold(θ(ϕ))
  • J g o l d ( θ ′ ( ϕ ) ) J_{\mathrm{gold}}\left(\boldsymbol{\theta}^{\prime}(\phi)\right) Jgold(θ(ϕ)):外环损失

3 Experiment

我们评估了我们的方法在不同基准数据集上的有效性。具体来说,我们的评估中心围绕三个问题:

  1. 当标签数据非常稀疏时,Meta-PN是否能优于最先进的GNN模型
  2. 与最先进的GNN相比,在标准的半监督设置下,Meta-PN是否能达到竞争性能?
  3. 当数据规模变大时,与其他方法相比,Meta-PN的表现如何?

Dataset

在这里插入图片描述

  • 将每一个数据集拆分为training set (K nodes per class for K-shot task),test set , validation set。ogbn-arxiv数据集用来测试大规模数据。
  • 对于所有数据集,我们使用多个随机分割和不同的初始化来运行每个实验100次

Compared Methods

为了证实我们方法的有效性,我们的实验中包括了三类基线:

  1. Classical Models:MLP, LP (Label Propagation)是两类分别仅使用特征信息和结构信息的经典模型。GCN,SGC是两个具有代表性的GNN模型。
  2. Label-efficient GNNs:GLP (Generalized Label Propagation) ,IGCN (Improved GCN),M3S
  3. Deep GNNs:APPNP,DAGNN,C&S,GPR-GNN

Implementation Details

  • GPU:12 GB Ti-tan
  • feature-label transformer:a 2-layer MLP with 64 hidden units
  • L2 regularization :λ = 0.005
  • iteration (propagation) steps:10
  • optimize:Adam

Evaluation Results

4 Conclusion

本文提出了一种新的图元学习框架:元传播网络(Meta- PN),用于解决小样本半监督节点分类问题。

  • Adaptive Label Propagator (Meta Learner):利用目标模型的反馈来调整其传播策略,以在未标记节点上推断出准确的伪标签
  • Feature-label Transformer (Target Model): 吸收伪标记节点的结构和特征知识预测标签,从而解决了小样本半监督学习背后的挑战。

CSDN话题挑战赛第1期
活动详情地址:https://marketing.csdn.net/p/bb5081d88a77db8d6ef45bb7b6ef3d7f

猜你喜欢

转载自blog.csdn.net/qq_39328436/article/details/124839117