基本的なプロセス
- 画像はネットワークに入力され、特徴マップが取得されます。
- RPN を使用して候補ボックスを生成し、候補ボックスを特徴マップに投影して特徴行列を取得します。
- 特徴行列で ROI プーリングを使用して特徴マップを取得し、それを平坦化して予測結果を取得します。
主要な分析
ネットワークにおけるRPNの位置
上の図では、機能マップ層から上位層を指す 2 つの矢印があり、左の矢印は RPN 構造である領域提案ネットワークを指し、右の矢印は Roi プーリングを指します。速いrcnn。
RPN構造
特徴マップで3 ∗ 3 3*3を使用する3∗3 つのスライディング ウィンドウ、各位置は 256 次元のベクトル (一意ではありません。ここでのバックボーン出力の深さは 256) を取得し、完全に接続された層を通じて 2k の分類スコアが取得されます (右、それぞれアンカーの 2 つのパラメーターは前景確率と背景確率を表し、位置ボックス回帰の 4k パラメーターを表します。
特徴マップのアンカーと元の画像の対応:
元の画像と特徴マップのスケーリング係数に基づいて、元の画像に対応する特徴マップのアンカー中心の座標を計算し、系列を計算します。指定されたサイズのアンカーが元の画像上に生成されます。
元の画像では、アンカーの各位置に 9 つの異なるサイズがあり、3 つの領域 { 128 ∗ 128 128*128 128∗128、256 ∗256 256*256256∗256,512 ∗ 512 512*512512∗512 }、3 つのアスペクト比 { 1:1 1:1 1:1、1 : 21:21:2、2:1 2:12:1 }
2k パラメータ (2 つの各グループは、(前景確率、背景確率) を表します):
( 0.2 | 0.8) | (0.7 | 0.3) | (0.4 | 0.6) | (0.9 | 0.1) | … | … | … |
---|
4k パラメーター (4 つの各グループは、k 番目のアンカー ( dxk、dyk、dwk、dhk d_x^k、d_y^k、d_w^k、d_h^k) の予測回帰を表しますdバツk、dyk、dwk、dhk)):
( 0.12 | 0.21 | 0.74 | 0.33) | (0.54 | 0.16 | 0.09 | 0.21) | … | … | … |
---|
RPN損失関数
これは、分類損失と境界ボックス損失で構成されます。
ここで、
pi p_ip私はi 番目のアンカーが実際のラベルであると予測される確率
pi ∗ p_i^*ですp私∗正のサンプルは 1、負のサンプルは 0 です
。t私はは、i 番目のアンカーの境界ボックスを予測するパラメーター
ti ∗ t_i^*ですt私∗実ボックスのパラメータ
N cls N_{cls}ですNクラス_ _バッチ内のサンプル数
N reg N_{reg}N規則_アンカー位置の数です
R-CNN トレーニングの高速化
この論文では、RPN Loss + Fast R-CNN Loss 共同トレーニング方法を採用しています。
- 事前トレーニングされた分類モデルを使用して畳み込みネットワーク パラメーター (つまり、上図の CNN 層) を初期化し、RPN ネットワークを個別にトレーニングします (上図の左側の矢印部分)。
- RPNネットワークの畳み込み層と全結合層のパラメータを固定し、RPNネットワークが生成したターゲットボックスを使用してFast RCNNネットワークを学習します(上図右側の矢印部分)
- トレーニング済みの Fast RCNN ネットワーク パラメーターを修正し、RPN ネットワーク パラメーターを微調整します。
- RPN ネットワークの畳み込み層と全結合層パラメータを修正し、Fast RCNN ネットワーク パラメータを微調整しました (Roi プーリング層以降)