《机器学习技法》第13课笔记 深度学习

课程来源:林轩田《机器学习技法》

课程地址:https://www.bilibili.com/video/av12469267/?p=1


1. 深度学习面临的问题
1)结构构造问题:可以引入领域知识,如CNN实际上就是认为,两个像素相邻太远,它们之间的关联就没有太大意义,所以两个神经元不用相连

2. pre-train
1)从浅层开始,一层一层训练,每训练好一层就把权重固定住,这样得到整个深层网络的初始值。这样的好处是可以从较好的点开始进行计算,避免陷入局部最优解
2)那么如何训练两层网络之间的权重?层与层之间其实是特征抽取转换的过程,而一个好的特征转换,应该是能包含各个方面的特征(而不是集中在一个特征上),从而尽可能多地涵盖浅层的信息
3)要尽可能地涵盖信息,可以这么认为,当把浅层的特征转换到深层后,还原回来还能和浅层的特征尽可能相似,那么这个转换是好的。所以可以用自动编码机的方式来做pre-train
4)自动编码器这种转换实际上是在学习数据的典型表示,在有监督学习中可以抽取特征,在无监督可以做密度评估和异常值检测
5)计算方法

3. 提高网络泛化能力的一种方法:给数据中加入杂质。
在自动编码机中,我们不仅仅希望这个转换能还原数据,还希望能起到去noise的作用,所以可以人工加入一些杂质,提高模型的稳健性

4. PCA
1)考虑线性自动编码机,那么此时就不需要tanH了
2)考虑到限制条件,我们可以把两个w看成wij和wji
3)因此得到线性自动编码机的表示形式
4)目标是x和转换后的x的差的平方和尽可能小
5)将WtW做特征分解,特征矩阵是对角线矩阵,其中最多只有d*d~矩阵中较小的那个矩阵维度的值是非0。
对于WWtXn,实际上是先对Xn做空间上的转换,然后把其中一部分值抹0,最后再转换回来
6)优化特征矩阵:
a. 因为红色的V不影响长度,所以可以消去
b. 转化后,是(I-特征矩阵)*向量,为了让这个值最小,那么我们需要特征矩阵尽可能多1,才能把括号内的值变少。因为特征矩阵最多d~个1,所以最值确定了
c. 确定了特征矩阵后,我们需要优化的就只剩下V了
7)优化v
a. 把min问题转换为max问题,min问题是保留尽可能少的,max问题就是remove尽可能多的
b. 将平方式展开后,可以用拉格朗日方式来求。算式对v求导,得到左边;条件对v求导,得到v。两者应该是平行关系,因此加上入
c. 这个算式实际上就是特征根解,入是特征矩阵
d. 要max,那么入留下来的要是最大的那些值
8)线性自动编码优化的转换后的平方差,PCA优化的是转换后x的方差。有一种方式将线性自动变化转换为PCA,就是将x减去x的均值


猜你喜欢

转载自blog.csdn.net/u013382288/article/details/80991883
今日推荐