論文研究ノート:ネットワークベースの高レベルのデータ分類
手法、紙はネットワークベースの高度なデータ分類手法を紹介します
1.トレーニングプロセスの簡単な説明
全体的な考え方は、トレーニングプロセスは最初にネットワークを形成し、予測プロセスは、ネットワークの元の内部モードとネットワーク構造の挿入位置に最も近い新しいデータがデータのラベルとしてネットワークに入るというものです。
- データセットを\(X_ {trainning}およびY_ {trainning} \)に分割します。
- \(X_ {training}をX_ {net}とX_ {items}に分割、Y_ {trainning}も同じように分割\)
- 次に、ネットワークは複数で構成されてネットワーク
组件
を形成し、各サブセットはラベルのタイプのデータを表します 组件
ネットワークを指します同一个标签的节点集
。- ネットワークに影響を与える値として各ネットワークの
组件
いくつかを抽出し网络测度
ます。ネットワーク測定には複数の方法があることに注意してください - \(新しいノードが挿入されるたびに、各X_ {item}を1つずつネットワークに追加します\)次に、ネットワーク内の影響を受けるコンポーネント
网络测度
が再計算されます - トレーニングフェーズでは、新しいノードが挿入されるたび
网络测度
に、このノードにラベルが付けられるため、1つのコンポーネントのみに影響することに注意してください。 - トレーニングプロセス中、コンポーネントとして毎回新しいノードを挿入することによって引き起こされるネットワーク測定値の変化は、影響値として2次元配列に保存され、最後に影響リストとして保存されます。
- 予測段階では、生成された影響値に新しいノードが挿入され、元のネットワークメトリックの状態と比較すると、差が最も小さく、ネットワークを安定させる挿入が新しいノードのラベルになります。
2.アルゴリズムの詳細
ネットワークを構築する
- 2つのハイパーパラメーター\(kおよびp \):ここで、\(kはkNNアルゴリズムによって最も近いkポイントを見つけるために使用され、pは除算X_ {trainning}をX_ {net}とX_ {item} \の比率に分割するために使用されます)
- \(X_ {net}はネットワークの初期化に使用され、X_ {item}はトレーニングに使用され、1つずつネットワークに追加されます\)
- 最初に\(X_ {net} \)を使用して初期ネットワークを構築し、次の2つの従来のネットワーク構築方法を使用します。
\ [N(x_i)= \ begin {cases} \ epsilon-radius(x_i、y_i)&、{if | \ epsilon-radius(x_i、y_i)|> k} \\ kNN(x_i、y_i)&、\テキスト{そうでなければ} \ end {cases} \]
- \(N(x_i)はx_iの近傍ノードを意味します\)
- 最初のケースは、\(x_iを原点とし、\ epsilonを半径とすると、x_iの近傍にあるノードの数がkより大きい場合、最初のアルゴリズム\に従って検索することを示しています)
- それ以外の場合は、KNNアルゴリズムに従います
- どこに
\ [\ epsilon = \ sum_ {j = 1} ^ L \ frac {median(kNN_ {dist}(x_i、y_ {x_i}))} {L} \]
- \(kNN_ {dist}(x_i、y_y)は、x_iに最も近いk個の距離を返します\)
- Lはラベルの数です
研修
- ネットワークの構築が完了した後、\(X_ {item}を1つずつネットワークに追加すると、各x_i(1次元配列、次元=選択されたネットワーク測定方法の数)による影響は\)
\ [I_i ^ {(j)}(x)(u)= \ Delta G_i ^ {(j)}(u)\ rho ^ {(j)} \]
- \(u:u番目のネットワーク測定方法を示します\)
- \(j:j番目のカテゴリを示します\)
- \(I_i ^ {(j)}(x)(u):ラベル(コンポーネント)jのノードiのネットワーク測定値uの影響値を表します\)
- \(\ Delta G_i ^ {(j)}(u)\ in [0,1]:ノードiがコンポーネントjに挿入されていること、およびそのネットワークメジャーの変更値\)
- \(\ rho ^ {(j)} \ in [0,1]:合計数に対するコンポーネントのノード数の比率を示します\)
- トレーニングするパラメーター。ネットワーク測定値があります。これらのネットワーク測定値に重み付けし、これらの重みを最適化するためにトレーニングします。重み配列は2次元で、最初の次元はネットワークのコンポーネント(カテゴリ)インデックスを表し、2番目の次元は測定方法のインデックスを表し、各コンポーネントの測定方法の重みの合計は1です。
\ [\ sum_ {u = 1} ^ K \ alpha(u)= 1 \]
- \(u:ネットワーク測定を意味します\)
予測セクション
\(X_ {テストでX_I \ }、 それはネットワークでの測定値に影響を与えるラベルないこと\と同じです)
\ [f_i ^ {(j)}(x)(u)= \ alpha ^ {(j)}(u)I_i ^ {(j)}(x)(u)\]
- \(j:カテゴリを示します\)
- \(u:ネットワーク測定方法を意味します\)
コンポーネントjに対するノードの影響値とコンポーネントJの以前の影響値の間の最小距離は次のとおりです。
ノードがコンポーネントjに属する確率:
ペーパーで提供されるネットワークメトリック:
- 平均度(hki):
- 多様性(R)
- 平均ローカルクラスタリング係数(hccii)
- 推移性(C)
- 平均最短経路長(l):
- 次数分布の2次モーメント(hk2i):