「グラフ畳み込みネットワークを使用した半教師あり分類」という論文について、Xiaobi の学習と理解

参考ノート:論文ノート: グラフ畳み込みネットワークによる半教師あり分類_hongbin_xu のブログ - CSDN ブログ

論文ノート: グラフ畳み込みネットワークによる半教師あり分類_インビングルのブログ-CSDN ブログ

ラプラシアン行列と正則化_Laplacian Regularization_solicucu のブログ - CSDN ブログ

グラフ畳み込みネットワーク(GCN)の理解と詳しい導出 グラフ畳み込みネットワーク(スペクトルドメインGCN)_グラフ畳み込みネットワークの導出過程を詳しく解説_仕事をしていないTudouのブログ - CSDNブログ

この記事を読んでもまだフーリエ変換が理解できないなら、こっちに来て私を絞め殺してください - Zhihu

序文

畳み込みニューラル ネットワーク: 人間の脳からインスピレーションを得たもので、物体を識別する場合、最初にエッジを識別し、次に形状を識別し、最後に物体の種類を決定します。畳み込みニューラルネットワークは、脳認識の特性を利用して多層のニューラルネットワークを構築し、下位層で物体の特徴を識別し、いくつかの下位の特徴が上位の特徴を形成し、最終的に組み合わせて分類します。多層機能の。

一般的な畳み込みニューラル ネットワーク (CNN) は、畳み込み層、プーリング層、全結合層で構成されます。畳み込み層は特徴を抽出するために使用され、プーリング層は次元を削減して過剰適合を減らすために使用され、全結合層は最終結果を出力するために使用されます。研究の対象となるのは通常、秩序ある文章や犬や猫の分類などの規則的な空間構造です。これらの特徴は行列で表すことができます。平行移動不変性のある画像の場合、小さなウィンドウを任意の位置に移動しても内部構造には影響せず、CNN を使用して特徴を抽出できます。RNN は通常、NLP などの配列情報に使用されます。しかし、生命界には分子構造など、平行移動不変性を持たない無限次元データとみなせる不規則な空間構造データが依然として多く存在しており、これらの不規則な空間構造は固定コンボリューションカーネルでは特徴を表現することが困難です。各ノードは一意であるため、CNN と RNN は無効になります。GCN は、グラフ データから特徴を抽出する一連のメソッド (本質的には特徴抽出器) を設計しました。この論文 (グラフ畳み込みネットワークによる半教師あり分類) では、スペクトル グラフ理論を使用し、ラプラシアン行列の固有値と固有ベクトルを使用してグラフの特性を研究しています。

半教師あり学習とは、サンプル セット内のデータの一部のみにラベルが含まれており、ラベルのないデータの分類は既存のラベル付きデータから推測されることを意味します。データ セットが与えられると、それをグラフにマッピングできます。データ セット内の各データはノードに対応します。グラフは行列に対応できるため、行列に基づいて半教師あり学習アルゴリズムを分析できます。しかし、これには 2 つの問題があり、1 つはサンプルが n 個あると仮定すると、複雑さは n^2 となり、このような大規模なデータの処理が困難になります。第 2 に、合成プロセスで使用できるのはサンプル セットのみであり、新しいサンプルを追加するには、元の画像を再構築してラベルを付け直す必要があります。

この論文の目標は、半教師あり学習の問題を解決することです。この論文では、ニューラル ネットワーク f(X,A) を使用してグラフ構造をエンコードし、教師付きターゲット上でラベル付きノードをトレーニングします。

 1 はじめに

ラベルがノードの小さなサブセットにのみ適用される、グラフ内のノードを分類する問題を考えます。この問題は半教師あり学習として構成されており、何らかの形式のグラフベースの明示的な正則化によってラベル情報がグラフ上で平滑化されます。たとえば、式 (1) では、損失関数でラプラシアン正則化項が使用されています。

  • L_{0}教師付き損失をグラフ内のラベルで表します
  • f(.) はニューラル ネットワークと同様の微分可能な関数を表します
  • λ は重み係数です
  • X はノード特徴ベクトルX_{i}の行列です
  • A はグラフの隣接行列を表します
  • D_{ii}=\sum_{j}^{}A_{ij}A の次数行列を表します。これは対角行列です。
  • Δ=DA は、無向グラフの非正規化グラフ ラプラシアンを表します。

これには 2 つの利点があります。グラフ ニューラル ネットワーク用のシンプルで適切に動作する順伝播定式化を導入し、スペクトル グラフ畳み込みの一次近似からそれをどのように動機付けることができるかを示します。次に、この形式のグラフベースのニューラル ネットワーク モデルを、グラフ内のノードの半教師あり分類にどのように使用できるかを示します。欠点は、接続されたノードが同じラベルを共有する可能性があるという前提に依存していることです。グラフのエッジは必ずしもノードの類似性をエンコードする必要はなく、代わりに追加の情報を含む可能性があるため、この仮定によりモデリング機能が制限される可能性があります。

2 グラフ上の高速近似畳み込み

このセクションでは、多層グラフ畳み込みネットワーク (GCN) について考察します。

  • A はグラフの隣接行列です
  • \チルダ{A}=A+I_{A}、A に自己ループを加えたものです。
  •  \チルダ{D_{ii}}はい\チルダ{A}、次数行列 \sum j \tilde{A}ijは対角行列です
  • W^{(l)}特定のレイヤーに対してトレーニング可能な重み行列です
  • σ(.) は、ReLU(.)=max(0,.) などの活性化関数です。
  • H^{l}R^{N*D}は層 l の活性化行列であり、層 l-1 の出力と考えることができ、H^{0}=X

この形式の順方向伝播は、グラフ上のローカル スペクトル フィルターの一次近似によって励起できることが以下に示されます。

2.1 スペクトル畳み込み

グラフ上のスペクトル畳み込みを考えます。入力信号 x∈ に対してR^{N}、フーリエ領域でパラメーター θ∈ を取得しR^{N}、フィルターを設定します。g\シータ =diag(\シータ )

  • U は、グラフの正規化されたラプラシアンの固有ベクトル行列です。
  • ラプラシアン行列:L=I_{N}-D^{-1/2}AD^{-1/2}=U\ラムダ U^{T}
  • Λ 固有値は対角行列であり、U^{T}xグラフ上のフーリエ変換です。
  • g\シータこれは、L の固有値関数として理解できます。g\シータ (\ラムダ)

式(3)の計算コストは​​非常に高く、計算量はO(N^{2})であり、また、Lの固有分解の計算も非常に高価である。この問題を回避するには、g\シータ (\ラムダ)チェビシェフ多項式T_{k}(x)の切り捨てられた展開を使用して、k 次数への適切な近似を提供します。

  •  \チルダ{\Lambda }=\frac{2}{\lambda _{max}}\Lambda -I_{N}ラプラシアン行列 Lの最大固有値\lambda _{最大}を表します
  • {\シータ}'\イプシロン R^{K} はチェビシェフ係数です
  • チェビシェフ多項式の定義:
  1. T_{0}(x)=1
  2. T_{1}(x)=x
  3. T_{k}(x)=2xT_{k-1}(X)-T_{k-2}(x)

信号 x と filter の畳み込みの定義に戻るとg\シータ (\ラムダ)、次のようになります。

  •  \チルダ{L }=\frac{2}{\lambda _{max}}L -I_{N}
  • (U\ラムダ U^{T})^{k}=U\ラムダ ^{k}U^{T}
  • k はラプラシアン関数の k 次多項式で、中心点から最大 k ステップ離れたノードにのみ依存します。

2.2 階層的線形モデル

グラフ畳み込みに基づくニューラルネットワークは、式(5)を重ね合わせることで構築できます。K=1 の場合、ラプラシアン L 上の線形関数になります。この論文では、この形式の GCN を通じて、非常に幅広いノード次数分布を持つグラフの局所近傍構造の過学習問題を軽減できると述べています。このようなレイヤーを複数重ねることで特徴を抽出できます。

GCN (K=1) のこの線形式では、\lambda _{max}\約 2ニューラル ネットワーク パラメーターがトレーニング プロセス中にこの変化に適応できることが予測できるとさらに仮定されています。これらの近似に基づいて、方程式 (5) は次のように単純化されます。

証明プロセス:

ラプラシアン行列 L=D (次数行列)-A (隣接行列)

ラプラシアン行列の正則化の証明:L^{sym}= D^{-1/2}LD^{-1/2}= D^{-1/2}(DA)D^{-1/2}= D^{-1/2 }DD^{-1/2}-D^{-1/2}AD^{-1/2}= I_{N}-D^{-1/2}AD^{-1/2}

ここに画像の説明を挿入します

  •  2 つのフィルター パラメーター sum があり\シータ ^{0}\シータ ^{1}グラフ全体で共有できます。
  • k は畳み込み層の数です
  • パラメーターの数をさらに制限すると、オーバーフィッティングを減らすことができます。

  •  \シータ =\シータ ^{0}=-\シータ ^{1}

このときのI_{N}+D^{-1/2}AD^{-1/2}固有値の範囲は [0,2] ですが、ニューラルネットワークがこの式を使用すると、数値の不安定性や勾配の爆発・消失が発生する可能性があります。この問題を解決するために、次の正規化手法が導入されます。

  • I_{N}+D^{-1/2}AD^{-1/2}-> \チルダ{D}^{-1/2}\チルダ{A}\チルダ{D}^{-1/2}(つまり、図に自己ループを追加します)
  • \チルダ{A}=A+I_{N}
  • \チルダ{D}_{ii}=\sum_{j}^{}\チルダ{A}_{ij}

H^{l+1}=f(H^{l},A)=\sigma(\チルダ{D}^{-1/2}\チルダ{A}\チルダ{D}^{-1/2 }H^{l}W^{l})活性化関数 σ(.) を追加すると、式 2 が得られます。

X\ε R^{N*C}この定義は、次の図に示すように、C 個の入力チャネル (つまり、各ノードが C 次元の特徴ベクトルを持つ) と F およびフィルターまたは特徴マップを持つ信号に一般化できます

  • \シータ\ε R^{C*F}はフィルタパラメータ行列です
  • Z\epsilon R^{N*F}畳み込み後の信号行列出力です

3 半教師ありノードの分類

グラフ上の情報を効果的に伝播するモデル f(X,A) を導入しましたが、ここで半教師ありノード分類の問題に戻ります。モデル f(.) を調整すると、引用ネットワーク内の文書間の引用リンクやナレッジ グラフ内の関係など、X に存在しない情報が隣接行列に含まれている状況でより便利になります。図に示すように、モデル全体は半教師あり学習用の多層 GCN に使用されます。

3.1 例

次の例では、対称隣接行列 A を含むグラフ上で 2 層 GCN を使用した半教師ありノード分類を検討します。まず、以下\チルダ{A}=D^{-1/2}\チルダ{A}D^{-1/2}を使用して順伝播モデルを計算します。

左の図は半教師あり学習に使用される多層ネットワーク GCN の模式図で、入力層に C 個の入力、いくつかの隠れ層、F 個の出力特徴があります。右の図はCoraデータセットで学習させた2層GCNの隠れ層可視化結果で、色は文書の分類を示しています。

ここでは、入力層に属するパラメータを隠れ層に定義し隠れ層に属するパラメータを出力層に定義します。ソフトマックス アクティベーション関数はe^{x_{i}}/\sum_{i=1}^{N}e^{x_{i}}、行ごとに適用されるように定義されます。クロスエントロピー誤差は、すべてのラベル付きデータを評価するために使用されます。

ここで、Y1 はラベル付きノードのセットです。ニューラル ネットワークは、勾配降下法を使用して W0 と W1 をトレーニングします。ドロップアウトを使用して、トレーニング プロセスにランダム性を導入します。

4 まとめ

チェビシェフの公式を使用して、最長ステップ長 k の周囲のノードに依存して k 次の近似フィッティング フィルターを作成し、それらに対する周囲のノードの影響をさらに考慮します。つまり、K=1, をとり、さらに最適化します。 、勾配を防ぐために\lambda_{max} \約 2爆発\シータ =\シータ ^{0}=-\シータ ^{1}が改良され、最終的に定義されました。

おすすめ

転載: blog.csdn.net/DW_css/article/details/132521666