机器学习第一次个人作业

对课程的学习心得做一个小结,也可以是学习笔记

模式识别

  • 一般由特征提取回归器两模块组成
  • 大致分为回归分类两种形式
  • 对于输入的待识别模式,根据已有的知识进行判别决策,输出其回归值或所属类别

机器学习

  • 通过一定量的训练样本,来学习模型的参数,有以下几类:
    • 有监督式学习:训练样本给定真值
    • 无监督式学习:训练样本不给真值,难度较大,用于聚类、图像分割等
    • 半监督式学习:仅给定一部分训练样本的真值,用于网络流数据等
    • 强化学习:真值滞后反馈,适用于需要累积多次决策才知道结果好坏的任务

分类器

MED分类器

  • 基于欧式距离的分类器,欧式距离 \(d(x1,x2)=(x2-x1)^{T}*(x2-x1)\)
  • 判别方法: \((x-μ_{1})^{T}(x-μ_{1})<(x-μ_{2})^{T}(x-μ_{2})? C1类 : C2类\)
  • 受特征的量纲、分布不同的影响,易导致分类错误,一般不直接用欧式距离进行分类

MICD分类器

  • 基于马氏距离的分类器,马氏距离 \(d(x1,x2)=(x2-x1)^{T}Σ_{x}^{-1}(x2-x1)\)
  • 判别方法:\((x-μ_{1})^{T}Σ_{x}^{-1}(x-μ_{1})<(x-μ_{2})^{T}Σ_{x}^{-1}(x-μ_{2})?C1类:C2类\)
  • 对特征向量进行白化,消除特征间的相关性并使特征具有相同方差,从而使其不受量纲和分布的影响,提高分类准确度
  • 但在距离相等时,倾向于归于方差较大的类

MAP分类器

  • 基于后验概率的分类器,后验概率 \(p(C_{i}|x)=\frac{p(x|C_{i})p(C_{i})}{p(x)}\)
  • 判别方法:\(p(x|C_{1})p(C_{1})>p(x|C_{2})p(C_{2})?C1类:C2类\)
  • 选择后验概率最大的类作为判别结果,即最小化概率误差

贝叶斯分类器

  • 在MAP分类器的基础上,引入决策风险的概念,即对每种决策失误赋予权值
  • 决策风险\(R(α_{i}|x)=Σ_{j}λ_{ij}p(C_{j}|x)\),其中\(λ_{ij}\)表示将真值类别属于j类的样本归于i类的决策的损失,
  • 对每个样本均决策风险最小的类别,可使损失期望之和最小化

学习参数

最大似然估计

  • \(θ_{ML}\) 使似然函数 \(\prod_{n=1}^{N}p(x_{n}|θ)\) 最大
  • 参数θ被看作确定值,取值为 \(θ_{ML}\)

贝叶斯估计

  • 相对于最大似然估计中参数θ是一个确定值,贝叶斯估计将θ也看作随机变量来估计
  • 因此需要求参数θ的后验概率\(p(θ|D_{i})=\frac{p(D_{i}|θ)p(θ)}{p(D_{i})}=α\prod_{n=1}^{N_{i}}p(x_{n}|θ)p(θ)\)(在认为特征间满足独立同分布(iid)时有后一个等式,其中α为归一化因子)
  • 再求观测似然关于θ的边缘概率:\(p(x|D_{i})\)=\(\int_{θ} p(x|θ,D_{i})\)=\(\int_{θ} p(x|θ)p(θ|D_{i})\)
  • 随着样本个数的增加,贝叶斯估计越趋于真实的观测似然分布

猜你喜欢

转载自www.cnblogs.com/orangee/p/12528087.html