机器学习-简单总结

现在回去看看发现课程内容除去大量公式推导，基本上没有啥东西

概述

分类：有监督、无监督、半监督及强化学习

监督学习：数据有输入和标记。回归问题、分类问题、序列标注问题。

生成式模型：根据概率预测

判别式模型：直接学习决策函数

极大似然估计（MLE）：直接训练集的各种样本的概率乘起来，最大化

最大后验估计（MAP）：在MLE的基础上乘一个先验概率

无监督学习代表：聚类

决策树

输入变量到真值有一个真值表，将其变为树的形式，根到叶子的路径表示真值表的一行

优化目标：减小树的规模，增加泛化程度

最优类别划分：根据熵（信息增益）来选择最优属性。

剪枝：预剪枝（划了不如不划），后剪枝（不如换成叶节点）

连续值的处理：二分

缺失值的处理：类别划分时，对公式作推广

线性回归

给定数据集，求一个模型可以预测结果

线性回归： \(f(x_i)=w^Tx_i+b\) ，对均方误差函数求最小值

正则化：优化结构，即对系数的绝对值加权 \(\lambda\)

概率论

切比雪夫不等式：假设随机变量 X 有期望 \(E(X)=\mu\) , 方差 \(Var(X)=\sigma^2\) ，则对任意整数 \(\epsilon\) ，有 \(P(|X-\mu|\ge\epsilon) \le \frac{\sigma^2}{\epsilon^2}\)

大数定理：n个独立同分布随机变量，则它们的均值依概率收敛于 \(\mu\)

中心极限定理：大量独立同分布变量之和依分布收敛于正态分布。

MLE与MAP：

MLE认为参数是未知的常数，需要用数据去估计

MAP认为参数是随机变量，有它自己的概率分布

MLE对小数据容易过拟合；MAP对不同的先验的结果不同。

贝叶斯决策论

贝叶斯决策论：如何基于概率和误判损失来最优化类别标记，即使风险函数最小。

决策面：二分类问题中，被分类到两类概率相同的样本取值构成的面。

贝叶斯误差：被分类错误的概率，P(mistake)=P(X in L1, Y=0) + P(X in L0, Y=1)

贝叶斯分类器的三种分类方法：

确定条件概率密度、推断先验概率，使用贝叶斯定理求后验概率（生成式模型）
直接解决后验概率问题，使用决策论分类（判别式模型）
找到一个函数，直接将输入映射到标签。与概率无关。

KNN（K邻近）分类器

根据与原本最近的 k 个样本的投票决定标签。

K值选择、距离度量、决策规则

朴素贝叶斯

生成式模型

认为各变量条件独立，那么可以将变量之间分开，然后用贝叶斯公式
\[ Y_{new}=\arg\max_{y_k} P(Y=Y_k)\prod_{i=1}^nP(X_{new}|Y=Y_k) \]

逻辑回归

判别式模型。直接学习 \(P(Y|X)\)
\[ P(Y=1|X)=\frac{1}{1+\exp(w_0+w^TX)} \]
可以拓展到多分类。所以目的是学习w

计算交叉熵 \(l(w)=\sum_lY^l\ln P(Y^l=1|X^l,W)+(1-Y^l)ln P(Y^l=0|X^l,W)\)

求极大值。

支持向量机（SVM）

找一个直线，将样本分成两半，且间隔最大

即对于所有类1的点，满足 \(w^Tx+b\ge C\) ，类 -1 的点满足 \(w^Tx+b\le-C\)

最大化间隔，即 \(2C/||w||\) 。总之最终是
\[ \max_{w,b}\frac 1 {||w||_2} \\ s.t. \ y_i(w^Tx_i+b)\ge 1 \]
凸二次优化问题，用拉格朗日乘子法。

上述为硬间隔最大化，实际上有软间隔最大化，即对每个样本点加入一个松弛变量，松弛变量有代价。即
\[ \min_{w,b}\frac 1 2{||w||_2}^2+C\sum\xi_i\\ s.t. \ y_i(w^Tx_i+b)\ge 1-\xi_i \]

聚类

k-means：

聚类。

初始化 k 个簇中心，每个样本找离其最近的簇归类，然后再调整中心的坐标，不断迭代。

实际上是在优化 \(\min_{\mu,c}\sum_i\sum_{C(j)=i}||\mu_i-x_j||^2\)

实际上也是 EM 的步骤：先固定 \(\mu\) 优化 \(C\) ，再固定 \(C\) 优化 \(\mu\)

GMM（混合高斯模型）:

k-means中的 C 函数太硬，我们把它换成后验概率，即 x 属于各个类的概率，然后作MLE，总之最后有了迭代式子

EM的步骤：先计算后验概率，再根据后验概率迭代参数

PCA 主成分分析

主要目的是降维——把原样本空间中相关的维度剔除，留下的维度更能表示原数据。

具体步骤：

去中心化
计算协方差矩阵
对协方差矩阵进行特征值分解，找到最大的 k 个特征值对应的特征向量，标准化，组成特征向量矩阵W
\(z_i=W^Tx_i\)

思想大概是找到在样本空间中单位偏移量影响最大的 k 个方向保留，其他方向抹除，即投影在 k 维超平面上。

被删除的特征往往与噪声有关，所以这也是某种意义上的降噪