【ZJU-機械学習】畳み込みニューラルネットワーク-LeNet

畳み込みニューラル ネットワークの概念

コンボリューション カーネルの手動設計から、コンボリューション カーネルの自動学習まで。
コンボリューションカーネルとは何ですか?
「信号とシステム」ではウェーブレット変換やフーリエ変換など多くの変換を学びました。

フーリエ変換の場合:
ここに画像の説明を挿入します
フーリエ変換のコンボリューション カーネルの場合、その機能は f(t) 信号を処理することです (この機能は、最初に信号を乗算してから加算することです)。

そして、人為的に畳み込みカーネルを見つけるためにこれらの変換を学習します。
画像処理では、コンボリューションカーネルと画像を組み合わせて特徴を生成するために、複数のコンボリューションカーネルを使用して複数の特徴を抽出します。

いわゆる畳み込みでは、最初にグラフィックスから特徴を抽出し、画像の特徴を出力し、次にこれらの特徴をニューラル ネットワーク (完全接続層) に入力します。

用語

ここに画像の説明を挿入します

ステップサイズと特徴マップサイズの関係

ここに画像の説明を挿入します

ここに画像の説明を挿入します

ゼロパディング

ステップ サイズの一部 (通常は 1 より大きい) では、コンボリューション カーネルがエッジ部分を走査できない場合があり、その結果、操作に参加できなくなります。ピクセルの無駄を防ぐために、エッジ部分にゼロを埋め込みます。
ここに画像の説明を挿入します

重量分担

画像の畳み込みは、完全に接続されたネットワークの重み共有とみなすことができます。

ここに画像の説明を挿入します
ここに画像の説明を挿入します
上記の畳み込み演算は、次の重み共有ネットワークと同等です。
ここに画像の説明を挿入します

ここに画像の説明を挿入します

ルネット

ここに画像の説明を挿入します
最初の一歩


ここに画像の説明を挿入します
非線形変換 (Relu) の2 番目のステップに注目し
、2*2 の範囲を平均してから Relu 変換を実行します。

逆伝播する場合は、パラメーターの偏導関数の 1/4 を取得して、前のニューロンに入力します。

第三段階

5 * 5 * 6、Stride=1 の 16 個の畳み込みカーネルを使用し、それらを 14 * 14 * 6 の特徴マップに適用すると、10 * 10 の 16 個の特徴マップが得られます。

ステップ 4
: 平均

ステップ 5:
上記の 16 * 5 * 5 を全結合層に入力します。

ここに画像の説明を挿入します

ネットワーク全体のトレーニング速度は畳み込み層 (時間計算量) に依存し、パラメーターの数は全結合層 (空間計算量)に依存することがわかります。

注: すべての線形変換の後、ReLu に従う必要があります。

Tensorflow は LENET-5 を実装します

ここに画像の説明を挿入します
レイヤ 1 (CONV1) およびレイヤ 2 (AVG_POOL1)

sess = tf.InteractiveSession()
x = tf.placeholder(float, shape=[None, 784])
y_ = tf.placeholder(float, shape=[None, 10])

W_conv1 = weight_variable([5, 5, 1, 6])
b_conv1 = bias_variable([6])

x_image = tf.reshape(x, [-1,28,28,1])
h_conv1 = tf.nn.relu(conv2d(x_image, W_conv1,’SAME’) + b_conv1)
h_pool1 = average_pool_2x2(h_conv1)
def conv2d(x, W, padding_method='SAME'):
	 return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding=padding_method)
def avg_pool_2x2(x, padding_method='SAME'):
  return tf.nn.avg_pool(x, ksize=[1, 2, 2, 1],
     strides=[1, 2, 2, 1], padding= padding_method)

レイヤ 3 (CONV2) およびレイヤ 4 (AVG_POOL2)

W_conv2 = weight_variable([5, 5, 6, 16])
b_conv2 = bias_variable([16])

h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2) + b_conv2)
h_pool2 = avg_pool_2x2(h_conv2)

完全に接続された 3 つの層

W_fc1 = weight_variable([5 * 5 * 16, 120])
b_fc1 = bias_variable([120])

h_pool2_flat = tf.reshape(h_pool2, [-1, 5*5*16])
h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, W_fc1) + b_fc1)

keep_prob = tf.placeholder("float")
h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)
W_fc2 = weight_variable([120, 84])
b_fc2 = bias_variable([84])
h_fc2 =tf.nn.relu(tf.matmul(h_fc1_drop, W_fc2) + b_fc2)
h_fc2_drop = tf.nn.dropout(h_fc2, keep_prob)

W_fc3 = weight_variable([84, 10])
b_fc3 = bias_variable([10])

y_conv=tf.nn.softmax(tf.matmul(h_fc2_drop, W_fc3) + b_fc3)
cross_entropy = -tf.reduce_sum(y_*tf.log(y_conv))
train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)correct_prediction = tf.equal(tf.argmax(y_conv,1), tf.argmax(y_,1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))

sess.run(tf.global_variables_initializer())

for i in range(10000):
	batch = mnist.train.next_batch(50)
	if i%100 == 0:
	    train_accuracy = accuracy.eval(feed_dict={
    
    x:batch[0], y_: batch[1], keep_prob: 1.0})
	    print "step %d, training accuracy %g"%(i, train_accuracy)
	    train_step.run(feed_dict={
    
    x: batch[0], y_: batch[1], keep_prob: 0.5})
	    print "test accuracy %g"%accuracy.eval(feed_dict={
    
    
	    x: mnist.test.images, y_: mnist.test.labels, keep_prob: 1.0})

Caffe は LENET-5 を実装します

Caffe を使用してニューラル ネットワークをトレーニングするには、次の 3 つの方法があります。

  • コマンドラインインターフェース
  • Pythonインターフェース
  • MATLAB インターフェース
  • コマンドラインインターフェースCaffe
    のtoolsフォルダ内にCaffe.cppがあり、学習時のパラメータの更新やモデルの保存など必要な処理が書かれています。caffe をコンパイルした後、必要なのは、この実行可能ファイルを呼び出して、トレーニング中にトレーニング ソルバーを指定することだけです。

ファイル構造

1)create_lmdb.sh

2)compute_mean.sh

3)train_lenet.sh

4)lenet_solver.prototxt

5)lenet_train_test.prototxt

6)test_lenet.sh

メインコードの実装

  1. 作成_lmdb.sh

DATA=/home/hty/caffe-master/examples/mnist
BUILD=/home/hty/caffe-master/build/tools
 
rm -rf $DATA/mnist_train_lmdb
rm -rf $DATA/mnist_test_lmdb
 
$BUILD/convert_imageset --shuffle \
--resize_height=28 --resize_width=28 \
$DATA/    \
$DATA/training.txt  $DATA/mnist_train_lmdb
 
$BUILD/convert_imageset --shuffle \
--resize_height=28 --resize_width=28 \
$DATA/    \
$DATA/testing.txt  $DATA/mnist_test_lmdb
  1. 計算平均値.sh

#!/usr/bin/env sh
# This script converts the mnist data into lmdb/leveldb format,
# depending on the value assigned to $BACKEND.
set -e
 
DATA=/home/hty/caffe-master/examples/mnist
BUILD=/home/hty/caffe-master/build/tools
 
rm -rf $DATA/mean.binaryproto
 
$BUILD/compute_image_mean $DATA/mnist_train_lmdb $DATA/mean.binaryproto $@

  1. train_lenet.sh
#!/usr/bin/env sh
set -e
 
BUILD=/home/hty/caffe-master/build/tools
DATA=/home/hty/caffe-master/examples/mnist
$BUILD/caffe train --solver=$DATA/lenet_solver.prototxt $@

  1. lenet_solver.prototxt
net: "examples/mnist/lenet_train_test.prototxt"
# test_iter specifies how many forward passes the test should carry out.
# In the case of MNIST, we have test batch size 100 and 100 test iterations,
# covering the full 10,000 testing images.
test_iter: 100
# Carry out testing every 500 training iterations.
test_interval: 500
# The base learning rate, momentum and the weight decay of the network.
base_lr: 0.01
momentum: 0.0
weight_decay: 0.0005
# The learning rate policy
lr_policy: "inv"
gamma: 0.0001
power: 0.75
# Display every 100 iterations
display: 100
# The maximum number of iterations
max_iter: 10000
# snapshot intermediate results
snapshot: 5000
snapshot_prefix: "examples/mnist/lenet_rmsprop"
# solver mode: CPU or GPU
solver_mode: GPU
type: "RMSProp"
rms_decay: 0.98

Lr_policy の概要

fixed: always return base_lr.  
step: return base_lr * gamma ^ (floor(iter / step))  
exp: return base_lr * gamma ^ iter  
inv: return base_lr * (1 + gamma * iter) ^ (- power)  
multistep: similar to step but it allows non uniform steps defined by  stepvalue  
poly: the effective learning rate follows a polynomial decay, to be  zero by the max_iter. return base_lr (1 - iter/max_iter) ^ (power)  
sigmoid: the effective learning rate follows a sigmod decay  return base_lr ( 1/(1 + exp(-gamma * (iter - stepsize))))  
where base_lr, max_iter, gamma, step, stepvalue and power are defined  in the solver parameter protocol buffer, and iter is the current iteration. 
  1. lenet_train_test.prototxt
layer {
    
    
  name: "conv1"
  type: "Convolution"
  bottom: "data"
  top: "conv1“
 param {
    
    
    lr_mult: 1
  }
  param {
    
    
    lr_mult: 2
  }
  convolution_param {
    
    
    num_output: 6
    kernel_size: 5
    stride: 1
    weight_filler {
    
    
      type: "xavier"
    }
    bias_filler {
    
    
      type: "constant"
    }
  }
}
layer {
    
    
 name: "pool1“
   type: "Pooling“
   bottom: "conv1“
   top: "pool1“
   pooling_param {
    
    
   pool: MAX
   kernel_size: 2
   stride: 2
 }
}
layer {
    
    
  name: "loss"
  type: "SoftmaxWithLoss"
  bottom: "ip2"
  bottom: "label"
  top: "loss"
  include {
    
    
    phase: TRAIN
  }
}

6.test_lenet.sh


#!/usr/bin/env sh
set -e
 
BUILD=/home/hty/caffe-master/build/tools
DATA=/home/hty/caffe-master/examples/mnist
$BUILD/caffe test -model $DATA/lenet_train_test.prototxt -weights $DATA/lenet_iter_10000.caffemodel -iterations 100 $@

カフェのメリットとデメリット

カフェのメリット

  • 画像認識用の畳み込みニューラルネットワークに最適
  • 事前にトレーニングされたモデルが多数あります
  • コードの削減
  • パッケージ数も比較的少なく、ソースプログラムも理解しやすく、修正も容易です。
  • トレーニングされたパラメータは、他のプログラム ファイル (C 言語など) に簡単にエクスポートできます。
  • 産業用途に最適

カフェのデメリット

  • 畳み込みニューラル ネットワーク専用に開発されたため、構造が柔軟性に欠け、他のアプリケーションを実行するのが困難です。
  • コードの記述方法は比較的厳密であり、各レイヤーを記述する必要があります。
  • ソースコードを変更しない限り、すべての詳細を完全に調整することはできません。

おすすめ

転載: blog.csdn.net/qq_45654306/article/details/113395281