BPアルゴリズムの完全な導出2.0(オン)

ノートは、コアは四大式であることを、推論するBPアルゴリズムの前に置かれている偏微分のためのデマンドチェーンルール、再び兄の波が続き、これは、目的は印象づけるためにある、突き出すようになります。このトピックについてのメモリー心理学すでに答えは与えられた実際の科学者、、、覚えておくための最良の方法を繰り返すことですので、多くのノートを書いて、実際には、コンテンツのほとんどが反復され、繰り返し交差、その差は、実際には、その各反復であります上昇を理解する認知過程で、私はそれが必要だと思います。

BPアルゴリズム - 変数宣言

歴史を振り返ります

または、簡単な紹介を行い、その後、変数が宣言され、前のように、同じロジックで書き込みコードに努力し、厳格には、標準化され、注釈を付け、論理的、モジュラーとオブジェクト指向します

まず、BPアルゴリズムの波を簡単に紹介。

1970年代初頭では、提案されている1986年まで、学習大物の深さは、紙だけでその重要性を説明しました。

1980年代半ばには、これらの首長は、独立して発見された誤差逆伝播アルゴリズム(誤差逆伝播トレーニングを)BPと呼ば、解決し、多層ニューラルネットワーク、学習層値隠された結合荷重の問題を。

行うためのBP:エラーを訓練に、動的に更新するノード間の重み。

ニュートンとライプニッツのように、それぞれの分野からそれぞれ計算を作成しました:独立していることが分かりました。

などではないのヘルプ感じ、成功した兄、似ています、すみません、定命の失敗は、常にそれぞれ独自のレトリック、本当に心臓にカットが、無力ああを持つことができます。

他のニューラルネットワーク学習アルゴリズムへのBPアルゴリズムの相対は、このような問題解決能力とニューラルネットワークの領域を拡大し、はるかに高速です。今までは、BPアルゴリズムは、学習の深さの主要な礎石のまま。

コアは、BPアルゴリズムであり、Bは、ネットワークの全体的な動作に影響を与え、wは変更後明らかに偏向損失重量バイアス及びバイアスに対する重みを誤差関数を解決します

それを解決するためのプロセス、数学的に言えば、あるチェーンルールの多変量偏微分。微積分の新入生ああ、はい、本当に複雑ではありません。

変数宣言

フォーカスが理解する上でから、ある左へ右方向を、ああ。

  • \(W ^ L_ {JK} \) 第二に第一レベルL、j番目のノード、\((L-1)\ ) k番目の層のノードの重み値(重み)(逆方向、逆方向)逆に、4回を言います
  • \(^ L \ W)層Lの重み行列、j番目、Kとして(L_ {JK} ^ W \ \)
  • \(b_j ^ L \) BIAS第一レベルl、j番目のノード(オフセット)
  • \(B ^ L \)層Lの、バイアスベクトル
  • \(^ l_j \)第一レベルl、j番目の励振ノード(活性化)
  • \(^ L \)層L、励起ベクトルの

仮定する活性化関数は、である(\シグマ\)\ネットワーク間のレベルに応じて、マッピング(重み付け加算)の関係、(各ニューロンモデル):

単一ニューロン:\(A ^ l_j = \シグマ(\ SUM \制限_K ^ Wメントキシ{JK} \ {^ A} L-l_j _K ^ + B 1)\)

層ニューロン:\(L = A ^ \ Sigma社(ラ^ W ^ {L} 1-B + L ^)\)。

各画像に代表される変数と非常に直感的な方法の重要性を理解していたよう

\(Z ^ L = ^ Wラ^ {L-1} + B ^ L \)

\(Z ^ L \)層Lにおけるニューロンへの重み付けされた入力。

次に定義する中間変数 \(Z ^ L \) すなわち加重層ニューロンLが入力ベクトル、シーク成分\(Z ^ l_j \)を第一レベルl、j番目のニューロンに対する加重和入力。

\(Z ^ l_j = \和\ limits_k W_ {JK} a_k ^ {L-1} + B ^ l_j \)

それでは、各ノードの出力は、単に(HAベクターの形態)のように表すことができます。

\(A ^ L = \シグマ(Z ^ L)\)

その後、我々は損失の二乗に最も精通している形で、機能の喪失の定義を見て:

  • \(Y = Y(X) \) サンプルXタグベクター(所望の出力)

  • \(^ L = ^ L(X)\) ネットワーク出力音源ベクトルサンプルX
  • nはサンプル数を表し、Lは、ネットワーク層を表しています

Xは、各コンポーネントは、データの各列に対応するベクトル(多機能)であり、サンプルのベクトルである。したがって、xが書き込まれるNXPマトリックスを

\(C = \ FRAC {1}、{2N} \和\ limits_x || Y(X) - ^ L(X)|| ^ 2 \)

0.5ヘクタールがすべてを知っているし、少しの特定の意義は、時間の導出され、2つのノルム式は、0.5を勝つために2を掛けする必要があり、それは1、それの正式な美しさです。

2大コスト関数を仮定

仮定します。

上記、各値(サンプル)に特異的な、コスト関数は、各訓練サンプルX(ベクターHA)コスト関数のために、発現させることができる\(C_x \)平均

\(C_x = \ FRAC {1} {2} || Y - ^ L || ^ 2 \)

\(C = \ FRAC {1} {N} \和\ limits_x C_x \)

仮説2:

コスト関数は、ニューラルネットワークの出力層の関数として表すことができます。

\(C = \ FRAC {1} {2} || YA ^ L || ^ 2 = \ FRAC {1} {2} \和\ limits_j(y_j - a_j ^ L)^ 2 \)

ここで\(タグ値が定数を示しy_j、^ L_jベクトル出力層は、^ Lのj番目の成分を表す定数であり、Cは、出力層\のベクトルの関数です)

行列のアダマール積(アダマール製品)

2つのとして定義される異なる寸法の位置に対応する行列/ベクトル積要素の、新たな行列/ベクトルから成る、と呼ばれる(\ A \ ODOT B)\

ケース

仮定(\アルファ、\ベータ\ \ ) 各位置のベクトル成分のアダマール積、要素ごとの乗算である二次元を有するベクトルです。

\((\アルファ\ ODOT \ベータ版)_j = \ Alfa_j * \ Bita_j \)

\([1,2] \ \ \顧問[3,4] = [1 * 3,2 * 4] = [3,8] \)

BPアルゴリズム - フォー式

勾配の反対方向ことを理解

最初は、その後、何がネットワーク全体のコストへの影響になり、ネットワーク、神経ノードに右の値の変化を見ることです。

j番目のニューロン値の第一の層に、ノードLを仮定\(Z ^ l_j \)を加えたインクリメント、対応する励起出力が変化します

\(\シグマ(Z ^ l_j)\ RIGHTARROW \ \シグマ(Z ^ l_j + \デルタZ ^ l_j)\)

ネットワークを介してそれを広げ、コスト関数の変化量がある:\(\ FRAC {\部分C} {\ Z ^ l_j部分} \ ^デルタZのl_j \)

変化の量は、この式は、差動および誘導体、の関係である\(DF(X)= F「(X)DX \)ああ、または一次テイラー級数近似を使用することができると理解しました。

勾配(偏微分値)と仮定すると、\(\ FRAC {\部分C} {\ Z ^ l_j部分は} \) 正または負であり得る)非常に大きいです

我々は常に目標は、特定のポイントを見つけるために、あること、可能な限り小さくコスト関数Cの値を作ることである心に留めておくので、0 ==誘導体のポイント値

  • \(\ FRAC {\部分C } {\部分Z ^ l_jは} \) 非常に大きく、それが示す(\ Z ^ l_j)\ネットワーク全体の機能の損失に大きな影響、我々はだろう増加の勾配にシンボル反対を選択しますボリューム。(目的閉じる関数にゼロに「DF」、近隣にすることである極端な値の位置)
  • \(\ FRAC {\部分C } {\部分Z ^ l_jは} \) 非常に小さく、その後ニューロンに対する関係なく、どのような値の増分量、コスト関数にほとんど影響、コスト関数は傾向最適な、またの手の届かないところの関数である局所的な極端なポイント

グラデーションの方向

勾配:ベクターの組成物を作製するための機能のポリオール偏導関数は、ベクターは、本質的に関数です。

指向誘導体:上位概念と偏導関数は、偏向器に沿って固定され、軸方向、特定の状況指向誘導体

道順:それは、ベクターのために、ベクトルは大きさと方向を持っています

  • 誘導体最大方向、勾配誘導体モードの値で勾配の方向。
  • 指向誘導体タッチ勾配で方向性誘導体2つの極小放電、勾配の反対方向、

我々のMLシナリオの大部分がするで最小勾配、好ましくはゼロベクトルを見つけ、これはの関数である「極値」が配置されています。

したがって、私たちは常にので、極端な値の関数を解決する、勾配の負の方向の最小値と微分値を探してみてください。

これらは、実際に近い性質のために、より多くのあなたが1は、おそらく、構成、世界が0の基本的な要素であると認識、あなたが知っている高い数学の非常に基本的な概念である。「ドーソン1、1 2、2、3、三つのこと」というどのようなシンプルな真実うん、今それについて考えます。

それはしようとして、あることは考慮にネットワーク全体の構造井戸を取ることですので、間違いではない、ある特殊な高速なハードウェアがあるノード損失関数の種類に大きな影響を与え、ああ、このアイデアと統合された学習が同じである、彼らは普通です一般的には、偉大を構成するためには、著名人の兄弟を許可していません

グラデーション大きなトレーニングは、このノードの方向に限り、神経細胞のわずかな乱れとして、それはコストに大きな影響が発生しますので、それは、十分ではないと述べました。

逆に、それは同じレベルの、小さな勾配研修が優れていることを示し、特に大きな影響の全体のコストが発生することはありません、何が起こったかにかかわらず、通常の兄弟、その後、兄弟です。

これは特に、もう少しあなたよりもネジで大企業のいくつかのように、あなたは少しも影響が少ない場合や、国の全体の構造に相対的なバランスと安定しているでしょう。

勾配のこのような特徴によれば、従って、我々は定義することができる最初のレベルLを、j番目のニューロンの誤差があります。

\(\デルタ^ l_j = \ FRAC {\部分C} {\部分Z ^ l_j} \)

ヒント:最初に訓練するために、エラーとして、微分値を満たすことが、この脳洞は、Zhendiはああすることができます。

そう、BPアルゴリズムに重みとコスト勾配Cのバイアスに求めに相当する、エラーとして、ニューロンの層の偏微分を決定するために採用されています

\(\ FRAC {\部分C} {\部分W ^ L_ {JK}} \)、以及\(\ FRAC {\部分C} {\部分b_j ^ L} \)

それを理解し、この上の最初の記事では、1が長すぎるために書き込まない、あまりにも多くの情報は、主に特定の式の導出とコードの隣に終わり、これらの概念のか、エラーの定義になぜBPを理解する上で、吸収することができません唯一の完全に徹底的に理解するために、次の式は手のラインとBPうんの背中を達成するために行われるもので、論文を理解しています。

おすすめ

転載: www.cnblogs.com/chenjieyouge/p/12233535.html