神经网络基本知识(更新)

之前刚开始学神经网络的时候的一些笔记。

最近发现一个综述性论文不错:
《Recent Advances in Convolutional Neural Networks》

  1. 梯度下降:导出的梯度方向是函数值增大的方向,因此最小值应该减去梯度,也就是向梯度的反方向走
    (1)批量梯度下降BGD 全部m个样本总体的平均来更新参数。训练慢,但参数容易得到最优。样本数据集小的时候用
    (2)随机梯度下降SGD m个样本中选一个用来更新参数。训练快,但参数不是最优。样本数据集大的时候用
    (3)小批量梯度下降MSGD m个样本中选k个平均来更新参数。居中
    (4)momentum,在梯度下降的参数更新公式上增加动量。也就是如果本次下降的方向和上次一样,那么就会下降快一些,也就是学习率变大。
    (5)adagrad 基于梯度的优化算法,它能够对每个参数自适应不同的学习速率,对稀疏特征,得到大的学习更新,对非稀疏特征,得到较小的学习更新,因此该优化算法适合处理稀疏特征数据。主要优势在于它能够为每个参数自适应不同的学习速率,而一般的人工都是设定为0.01。同时其缺点在于需要计算参数梯度序列平方和,并且学习速率趋势是不断衰减最终达到一个非常小的值。Adadelta便是用来解决该问题的。
    (6)adam 不同参数自适应不同学习速率方法
  2. 反向传播是对每个参数进行梯度下降计算,梯度的计算都是从输出层开始使用链式法则的
  3. sigmoid函数的缺点:
    (1)梯度爆炸和梯度消失:由于链式法则,梯度是乘起来的,sigmoid函数的梯度最大不超过0.25,导致深层相乘之后可能很小,导致参数更新太慢。从深层网络角度来讲,不同的层学习的速度差异很大,表现为网络中靠近输出的层学习的情况很好,靠近输入的层学习的很慢,有时甚至训练了很久,前几层的权值和刚开始随机初始化的值差不多。因此,梯度消失、爆炸,其根本原因在于反向传播训练法则,属于先天不足。Hinton提出capsule的原因就是为了彻底抛弃反向传播,如果真能大范围普及,那真是一个革命
    https://blog.csdn.net/qq_25737169/article/details/78847691
    (2)不是0均值:sigmoid的导数都是正的,若输入全是正的,那么梯度也是正的,导致所有参数的更新都是一个方向。而我们希望参数的学习可以有正有负,不要出现捆绑效果。
  4. tanh激活函数
    解决了sigmoid不是0均值问题,但梯度消失仍然存在,因为导数最大是1
  5. relu
    计算速度快,只需要判断是否大于0
    没有梯度消失问题
    但不是0均值
    由于小于0的数导数是0,使得部分神经元没法更新(当learning rate很大的时候,梯度很大,导致参数变化很大,小于0,那么之后它就没有了梯度,就会die)
  6. 经验:
    (1)深度学习往往需要大量时间来处理大量数据,模型的收敛速度是尤为重要的。所以,总体上来讲,训练深度学习网络尽量使用zero-centered数据 (可以经过数据预处理实现) 和zero-centered输出。所以要尽量选择输出具有zero-centered特点的激活函数以加快模型的收敛速度。
    (2)如果使用 ReLU,那么一定要小心设置 learning rate,而且要注意不要让网络出现很多 “dead” 神经元,如果这个问题不好解决,那么可以试试 Leaky ReLU、PReLU 或者 Maxout.
    (3)最好不要用 sigmoid,你可以试试 tanh,不过可以预期它的效果会比不上 ReLU 和 Maxout.
  7. batch
    随机梯度下降是建立在batch基础上的,合适的batch size对你模型的优化是比较重要的,这个参数倒不需要微调,在一个大致数量即可,常取2的n次方,太大的batch size会受GPU显存的限制,所以不能无限增大。在一定范围内,一般来说 Batch_Size 越大,其确定的下降方向越准,引起训练震荡越小。Batch_Size 增大到一定程度,其确定的下降方向已经基本不再变化。
  8. 凸优化
    非凸优化会导致局部最优
    神经网络仍不能解决非凸优化问题
  9. 反卷积
    https://www.jianshu.com/p/fb50fe44a1a3
  10. capsule
    https://baijiahao.baidu.com/s?id=1592436997129330311&wfr=spider&for=pc
    https://blog.csdn.net/godwriter/article/details/79216404
    https://www.sohu.com/a/226611009_633698

猜你喜欢

转载自blog.csdn.net/travalscx/article/details/89335109