論文研究ノート:ネットワークベースの高レベルのデータ分類

論文研究ノート:ネットワークベースの高レベルのデータ分類
手法、紙はネットワークベースの高度なデータ分類手法を紹介します

1.トレーニングプロセスの簡単な説明

全体的な考え方は、トレーニングプロセスは最初にネットワークを形成し、予測プロセスは、ネットワークの元の内部モードとネットワーク構造の挿入位置に最も近い新しいデータがデータのラベルとしてネットワークに入るというものです。

  1. データセットを\(X_ {trainning}およびY_ {trainning} \)に分割します。
  2. \(X_ {training}をX_ {net}とX_ {items}に分割、Y_ {trainning}も同じように分割\)
  3. 次に、ネットワークは複数で構成されてネットワーク组件を形成し、各サブセットはラベルのタイプのデータを表します
  4. 组件ネットワークを指します同一个标签的节点集
  5. ネットワークに影響を与える値として各ネットワークの组件いくつか抽出し网络测度ます。ネットワーク測定には複数の方法があることに注意してください
  6. \(新しいノードが挿入されるたびに、各X_ {item}を1つずつネットワークに追加します\)次に、ネットワーク内の影響を受けるコンポーネント网络测度が再計算されます
  7. トレーニングフェーズでは、新しいノードが挿入されるたび网络测度に、このノードにラベルが付けられるため、1つのコンポーネントのみに影響することに注意してください
  8. トレーニングプロセス中、コンポーネントとして毎回新しいノードを挿入することによって引き起こされるネットワーク測定値の変化は、影響値として2次元配列に保存され、最後に影響リストとして保存されます。
  9. 予測段階では、生成された影響値に新しいノードが挿入され、元のネットワークメトリックの状態と比較すると、差が最も小さく、ネットワークを安定させる挿入が新しいノードのラベルになります。

2.アルゴリズムの詳細

ネットワークを構築する

  1. 2つのハイパーパラメーター\(kおよびp \):ここで、\(kはkNNアルゴリズムによって最も近いkポイントを見つけるために使用され、pは除算X_ {trainning}をX_ {net}とX_ {item} \の比率に分割するために使用されます)
  2. \(X_ {net}はネットワークの初期化に使用され、X_ {item}はトレーニングに使用され、1つずつネットワークに追加されます\)
  3. 最初に\(X_ {net} \)を使用して初期ネットワーク構築し、次の2つの従来のネットワーク構築方法を使用します。

\ [N(x_i)= \ begin {cases} \ epsilon-radius(x_i、y_i)&、{if | \ epsilon-radius(x_i、y_i)|> k} \\ kNN(x_i、y_i)&、\テキスト{そうでなければ} \ end {cases} \]

  • \(N(x_i)はx_iの近傍ノードを意味します\)
  • 最初のケースは、\(x_iを原点とし、\ epsilonを半径とすると、x_iの近傍にあるノードの数がkより大きい場合、最初のアルゴリズム\に従って検索することを示しています)
  • それ以外の場合は、KNNアルゴリズムに従います
  • どこに

\ [\ epsilon = \ sum_ {j = 1} ^ L \ frac {median(kNN_ {dist}(x_i、y_ {x_i}))} {L} \]

  • \(kNN_ {dist}(x_i、y_y)は、x_iに最も近いk個の距離を返します\)
  • Lはラベルの数です

研修

  1. ネットワークの構築が完了した後、\(X_ {item}を1つずつネットワークに追加すると、各x_i(1次元配列、次元=選択されたネットワーク測定方法の数)による影響は\)

\ [I_i ^ {(j)}(x)(u)= \ Delta G_i ^ {(j)}(u)\ rho ^ {(j)} \]

  • \(u:u番目のネットワーク測定方法を示します\)
  • \(j:j番目のカテゴリを示します\)
  • \(I_i ^ {(j)}(x)(u):ラベル(コンポーネント)jのノードiのネットワーク測定値uの影響値を表します\)
  • \(\ Delta G_i ^ {(j)}(u)\ in [0,1]:ノードiがコンポーネントjに挿入されていること、およびそのネットワークメジャーの変更値\)
  • \(\ rho ^ {(j)} \ in [0,1]:合計数に対するコンポーネントのノード数の比率を示します\)
  1. トレーニングするパラメーター。ネットワーク測定値があります。これらのネットワーク測定値に重み付けし、これらの重みを最適化するためにトレーニングします。重み配列は2次元で、最初の次元はネットワークのコンポーネント(カテゴリ)インデックスを表し、2番目の次元は測定方法のインデックスを表し、各コンポーネントの測定方法の重みの合計は1です。

\ [\ sum_ {u = 1} ^ K \ alpha(u)= 1 \]

  • \(u:ネットワーク測定を意味します\)

予測セクション

\(X_ {テストでX_I \ }、 それはネットワークでの測定値に影響を与えるラベルないこと\と同じです)

\ [f_i ^ {(j)}(x)(u)= \ alpha ^ {(j)}(u)I_i ^ {(j)}(x)(u)\]

  • \(j:カテゴリを示します\)
  • \(u:ネットワーク測定方法を意味します\)

コンポーネントjに対するノードの影響値とコンポーネントJの以前の影響値の間の最小距離は次のとおりです。

ノードがコンポーネントjに属する確率:

ペーパーで提供されるネットワークメトリック:

  • 平均度(hki):
  • 多様性(R)
  • 平均ローカルクラスタリング係数(hccii)
  • 推移性(C)
  • 平均最短経路長(l):
  • 次数分布の2次モーメント(hk2i):

おすすめ

転載: www.cnblogs.com/GGTomato/p/12692911.html