sp2.3 Hyperparameter tuning, Batch Normalization and Programming Frameworks - 代码天地

sp2.3 Hyperparameter tuning, Batch Normalization and Programming Frameworks

其他 2018-11-15 18:34:35 阅读次数: 0

1调试参数重要性红黄紫

指导原则：alpha学习速率 β是动量里那个 adam里β1、2 Σ一般不用调试

以前参数少时候比如俩参数就网格一样每个依次试一试

现在深度学习参数太多也不知道哪个重要就随机试比如左边的两个轴分别是α和Σ

在左图中可能按顺序试验最左侧列5个值结果可能都一样因为Σ用处不大但是右图都是随机的α 更容易出结果

可能是很多维的

可能发现一个点或者这一小区域的点效果比较好就放大这一区域更精细的取值

但有时候往往不是在一个小区域里

选取适当的范围

比如选取隐藏单元数和层数：单元数50-100 层数2-4

速率比如0.0001到1 随机均匀取值 0.1-1取值范围都沾到90%不够准可以对数来取值更容易取到合适的值

用不同的缩放

比如0.0001-1 可能百分之90的落在0.1-1 不应该用均匀线性的一段数

用log对数尺度log scale的分段

分别取对数得到a b这两个整数边界然后在10的这些幂内取值

对于β：0.9-0.9005变化影响不大但是在接近1时候0.999-0.9995影响大

关于调参的两大学派：

pandas 式：一天天慢慢调试看他的表现比如改下速率 β 什么的

第二种caviar鱼子式：同时试验很多种模型

如果有很多电脑资源啥的还是鱼子酱式的比较好容易找到

批量归一化让参数搜索更快

输入值特征归一化，但是对于多层的每层做完WX+B后

再做个归一化或者激活后再做个归一化

也有争论是归一化a还是z 一般是z

计算每层的平均值计算方差然后规范化减去平均值除以方差 Σ来稳定数值防止方差为0等

z帽这里又加入两个新参数γ和β 也会不断更新意味着可以随意让你设置z的平均值不

让他停留在激活函数接近0 靠近线性方程那一段更好利用非线性那段

这里β和动量里那个不一样

这β也是要更新可以用之前梯度下降的方法或者之前介绍的优化方法来更新

通常和minibatch方法一起使用更佳和w、b一样每次更新一次那两个参数

但是现在后面的b没用了因为每次要算Z平均值所以每次都会被减去让新的这个参数当右下角

为什么有效：他使得权重比你的网络更滞后或者更深层，改变了训练集数据的分布

比如原本分布如图左边的黑猫训练出来可能对右边别的颜色的猫就不太适用

其实还是训练集测试集数据分布不同协变量问题

假设已经学好了w3 b3

减少了隐藏值分布的变化正则化z11 z12这一列（保证方差1 均值0不变）

限制了前层参数的更新减少了前一层输入的改变使得改变的更加稳定

在minibatch上均值和方差都会产生噪声，因为比较小归一化可以减少噪音有正则化的作用

可以换dropout结合一起使用

用更大的minibatch可以减少噪声比如512

bitch norm每次只能处理一个minibatch数据

这里m指的是minbatch训练样本数

在测试集用指数加权单独来算平均来算方差和均值

但在测试时候需要每个样本逐个来

逻辑回归的一般形式对于多个物体分类

softmax激活多分类输出值是4*1向量每个值代表是这个物体的概率

这个激活函数特别之处在于要最后4*1向量最后再输出4*1的之前激活函数都是单个数值

当两类时候 softmax就变成了逻辑回归原本是输出1或0 现在就是概率

硬概率就是一个1 其余0 hardmax

softmax是逻辑回归从二分类到多分类的推广

损失函数：对于单个样本而已代价函数对于整体而言

这里算损失就剩下一项了就是使得对应那一项概率越大这也是最大似然估计

矢量化计算是个稀疏矩阵 one-hot标签值是个(4，m)的预测也是个(4，m)

框架：

placeholder就是站位每次训练他都要变

核心就是计算代价函数 cost那一行

猜你喜欢

转载自www.cnblogs.com/hellodantong/p/9965222.html

sp2.3 Hyperparameter tuning, Batch Normalization and Programming Frameworks

010 Hyperparameter tuning,Batch Normalization and Programming Frameworks

[改善深度神经网络] Hyperparameter tuning, Batch Normalization, Programming Frameworks习题解

C2 - Week 3 Quiz - Hyperparameter tuning, Batch Normalization, Programming Frameworks

第二课第三周：测验 Hyperparameter tuning, Batch Normalization, Programming Frameworks 10 个问题

Improving Deep Neural Networks (Week3)--Hyperparameter tuning, Batch Normalization and Programming F

Hyperparameter tuning/Batch Normalization(超参数调试、Batch正则化及优化)---deeplearning.ai---笔记（18）

Hyperparameter tuning

第三周超参数调试、Batch正则化和程序框架（Hyperparameter tuning）

Batch Normalization

batch normalization 与 layer normalization

Batch Normalization & Layer Normalization

Batch Normalization导读 Batch Normalization导读

吴恩达 DeepLearning 第二课第三周测试 Hperparameter tuning,batch normalization,programing framworks

Batch Normalization层

对Batch Normalization的理解

解读Batch Normalization

batch normalization 详解

[Tensorflow] Batch Normalization实现

Batch Normalization 学习笔记

Tensorflow实现Batch Normalization

论文之Batch Normalization

Batch Normalization原理

对Batch Normalization 的理解

Tensorflow Batch normalization函数

BN算法（Batch Normalization）

Batch Normalization (BN)

BN(Batch Normalization)

Batch Normalization Tensorflow代码

batch normalization 理解

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)