《机器学习技法》第13课笔记深度学习

课程来源：林轩田《机器学习技法》

课程地址：https://www.bilibili.com/video/av12469267/?p=1

1. 深度学习面临的问题

1）结构构造问题：可以引入领域知识，如CNN实际上就是认为，两个像素相邻太远，它们之间的关联就没有太大意义，所以两个神经元不用相连

2. pre-train

1）从浅层开始，一层一层训练，每训练好一层就把权重固定住，这样得到整个深层网络的初始值。这样的好处是可以从较好的点开始进行计算，避免陷入局部最优解

2）那么如何训练两层网络之间的权重？层与层之间其实是特征抽取转换的过程，而一个好的特征转换，应该是能包含各个方面的特征（而不是集中在一个特征上），从而尽可能多地涵盖浅层的信息

3）要尽可能地涵盖信息，可以这么认为，当把浅层的特征转换到深层后，还原回来还能和浅层的特征尽可能相似，那么这个转换是好的。所以可以用自动编码机的方式来做pre-train

4）自动编码器这种转换实际上是在学习数据的典型表示，在有监督学习中可以抽取特征，在无监督可以做密度评估和异常值检测

5）计算方法

3. 提高网络泛化能力的一种方法：给数据中加入杂质。

在自动编码机中，我们不仅仅希望这个转换能还原数据，还希望能起到去noise的作用，所以可以人工加入一些杂质，提高模型的稳健性

4. PCA

1）考虑线性自动编码机，那么此时就不需要tanH了

2）考虑到限制条件，我们可以把两个w看成wij和wji

3）因此得到线性自动编码机的表示形式

4）目标是x和转换后的x的差的平方和尽可能小

5）将WtW做特征分解，特征矩阵是对角线矩阵，其中最多只有d*d~矩阵中较小的那个矩阵维度的值是非0。

对于WWtXn，实际上是先对Xn做空间上的转换，然后把其中一部分值抹0，最后再转换回来

6）优化特征矩阵：

a. 因为红色的V不影响长度，所以可以消去

b. 转化后，是（I-特征矩阵）*向量，为了让这个值最小，那么我们需要特征矩阵尽可能多1，才能把括号内的值变少。因为特征矩阵最多d~个1，所以最值确定了

c. 确定了特征矩阵后，我们需要优化的就只剩下V了

7）优化v

a. 把min问题转换为max问题，min问题是保留尽可能少的，max问题就是remove尽可能多的

b. 将平方式展开后，可以用拉格朗日方式来求。算式对v求导，得到左边；条件对v求导，得到v。两者应该是平行关系，因此加上入

c. 这个算式实际上就是特征根解，入是特征矩阵

d. 要max，那么入留下来的要是最大的那些值

8）线性自动编码优化的转换后的平方差，PCA优化的是转换后x的方差。有一种方式将线性自动变化转换为PCA，就是将x减去x的均值

《机器学习技法》第13课笔记 深度学习