机器学习-简单总结

现在回去看看发现课程内容除去大量公式推导,基本上没有啥东西

概述

分类:有监督、无监督、半监督及强化学习

监督学习:数据有输入和标记。回归问题、分类问题、序列标注问题。

生成式模型:根据概率预测

判别式模型:直接学习决策函数

极大似然估计(MLE):直接训练集的各种样本的概率乘起来,最大化

最大后验估计(MAP):在MLE的基础上乘一个先验概率

无监督学习代表:聚类

决策树

输入变量到真值有一个真值表,将其变为树的形式,根到叶子的路径表示真值表的一行

优化目标:减小树的规模,增加泛化程度

最优类别划分:根据熵(信息增益)来选择最优属性。

剪枝:预剪枝(划了不如不划),后剪枝(不如换成叶节点)

连续值的处理:二分

缺失值的处理:类别划分时,对公式作推广

线性回归

给定数据集,求一个模型可以预测结果

线性回归: \(f(x_i)=w^Tx_i+b\) ,对均方误差函数求最小值

正则化:优化结构,即对系数的绝对值加权 \(\lambda\)

概率论

切比雪夫不等式:假设随机变量 X 有期望 \(E(X)=\mu\) , 方差 \(Var(X)=\sigma^2\) ,则对任意整数 \(\epsilon\) ,有 \(P(|X-\mu|\ge\epsilon) \le \frac{\sigma^2}{\epsilon^2}\)

大数定理:n个独立同分布随机变量,则它们的均值依概率收敛于 \(\mu\)

中心极限定理:大量独立同分布变量之和依分布收敛于正态分布。

MLE与MAP:

MLE认为参数是未知的常数,需要用数据去估计

MAP认为参数是随机变量,有它自己的概率分布

MLE对小数据容易过拟合;MAP对不同的先验的结果不同。

贝叶斯决策论

贝叶斯决策论:如何基于概率和误判损失来最优化类别标记,即使风险函数最小。

决策面:二分类问题中,被分类到两类概率相同的样本取值构成的面。

贝叶斯误差:被分类错误的概率,P(mistake)=P(X in L1, Y=0) + P(X in L0, Y=1)

贝叶斯分类器的三种分类方法:

  1. 确定条件概率密度、推断先验概率,使用贝叶斯定理求后验概率(生成式模型)
  2. 直接解决后验概率问题,使用决策论分类(判别式模型)
  3. 找到一个函数,直接将输入映射到标签。与概率无关。

KNN(K邻近)分类器

根据与原本最近的 k 个样本的投票决定标签。

K值选择、距离度量、决策规则

朴素贝叶斯

生成式模型

认为各变量条件独立,那么可以将变量之间分开,然后用贝叶斯公式
\[ Y_{new}=\arg\max_{y_k} P(Y=Y_k)\prod_{i=1}^nP(X_{new}|Y=Y_k) \]

逻辑回归

判别式模型。直接学习 \(P(Y|X)\)
\[ P(Y=1|X)=\frac{1}{1+\exp(w_0+w^TX)} \]
可以拓展到多分类。所以目的是学习w

计算交叉熵 \(l(w)=\sum_lY^l\ln P(Y^l=1|X^l,W)+(1-Y^l)ln P(Y^l=0|X^l,W)\)

求极大值。

支持向量机(SVM)

找一个直线,将样本分成两半,且间隔最大

即对于所有类1的点,满足 \(w^Tx+b\ge C\) ,类 -1 的点满足 \(w^Tx+b\le-C\)

最大化间隔,即 \(2C/||w||\) 。总之最终是
\[ \max_{w,b}\frac 1 {||w||_2} \\ s.t. \ y_i(w^Tx_i+b)\ge 1 \]
凸二次优化问题,用拉格朗日乘子法。

上述为硬间隔最大化,实际上有软间隔最大化,即对每个样本点加入一个松弛变量,松弛变量有代价。即
\[ \min_{w,b}\frac 1 2{||w||_2}^2+C\sum\xi_i\\ s.t. \ y_i(w^Tx_i+b)\ge 1-\xi_i \]

聚类

k-means:

聚类。

初始化 k 个簇中心,每个样本找离其最近的簇归类,然后再调整中心的坐标,不断迭代。

实际上是在优化 \(\min_{\mu,c}\sum_i\sum_{C(j)=i}||\mu_i-x_j||^2\)

实际上也是 EM 的步骤:先固定 \(\mu\) 优化 \(C\) ,再固定 \(C\) 优化 \(\mu\)

GMM(混合高斯模型):

k-means中的 C 函数太硬,我们把它换成后验概率,即 x 属于各个类的概率,然后作MLE,总之最后有了迭代式子

EM的步骤:先计算后验概率,再根据后验概率迭代参数

PCA 主成分分析

主要目的是降维——把原样本空间中相关的维度剔除,留下的维度更能表示原数据。

具体步骤:

  1. 去中心化
  2. 计算协方差矩阵
  3. 对协方差矩阵进行特征值分解,找到最大的 k 个特征值对应的特征向量,标准化,组成特征向量矩阵W
  4. \(z_i=W^Tx_i\)

思想大概是找到在样本空间中单位偏移量影响最大的 k 个方向保留,其他方向抹除,即投影在 k 维超平面上。

被删除的特征往往与噪声有关,所以这也是某种意义上的降噪

猜你喜欢

转载自www.cnblogs.com/dqsssss/p/12424274.html
今日推荐