机器学习（二）概率密度分布之非参数估计

机器学习（二）概率密度估计之非参数估计

2018/2/19
by ChenjingDing

二.非参数估计

2.1直方图估计

直方图估计概率密度函数基本思想：
将数据空间分成许多个子空间，每一个子空间大小为 $△$ ，在每一个子空间内计算样本出现的个数 $n_i$ ，样本总个数为N，则概率密度函数为：

p (x) = \frac{n_{i}}{N △} ；

$p(x) = \frac{n_i}{N△}；$ 平滑因子：

图4 不同平滑因子（上：平滑因子过小，估计的概率密度函数有很多毛刺，噪声；中：平滑因子适合的时候，估计的概率密度函数；下：平滑因子过大，估计的概率密度函数误差增大）

缺点：
当数据空间的维数为D，每一维划分的子空间个数为M，则所需子空间个数为 $M^D$ ，该个数呈指数级增长。有两种方法可以解决这个问题，它们都是针对每一个输入样本 $\widehat{x}$ ，而并非对整个训练样本事先划分好子空间。
这两种方法有相同的思路：在一个很小的区域R内，

P (x) = \int_{R} p (x) d x \approx p (x) V \Rightarrow p (x) = \frac{P (x)}{V} = \frac{K}{N V}

$P(x) = \int _R p(x)dx \approx p(x)V \Rightarrow p(x) = \frac{P(x)}{V} = \frac{K}{NV}$ K可以理解成V内训练样本的个数。如果固定V，则产生了核方法。如果固定K，则产生了K近邻估计的方法。

2.2核方法

引入核函数:

k (μ) ⩾ 0, V = \int k (μ) d μ = 1 （ 积 分 也 可 不 为 1 ） 则 K (\hat{x}) = \sum_{i = 1}^{n} k (x_{i} - \hat{x}) \Rightarrow p (x) = \frac{1}{N} \sum_{i = 1}^{n} k (x_{i} - \hat{x})

$k(μ) \geqslant 0, V=\int k(μ) dμ = 1（积分也可不为1）\\则K(\widehat{x})=\sum_{i=1}^n k(x_i-\widehat{x}) \Rightarrow p(x) = \frac{1}{N} \sum_{i=1}^n k(x_i-\widehat{x})$ 上述表述没有直方图方法那么直观，举以下两个例子：

$k(μ)$ 如下定义：

$k (μ) = {_{0, e l s e}^{1 (| u_{i} | < \frac{h}{2}, i = 1, 2 . . . D)} V = \int k (μ) d μ = h^{D}$ $k(μ) = \lbrace_{0, else}^{1 \ ( |u_i|<\frac{h}{2},i = 1,2 ... D)}\\ V =\int k(μ) dμ = h^D$ 如果μ是二维，则该积分表示以 $\widehat{x}$ 为中心，长宽为h，高为1的长方体体积。 $K (\hat{x}) = \sum_{i = 1}^{n} k (x_{i} - \hat{x}) = \sum_{i = 1}^{n} 1 (| x_{i} - \hat{x} | < \frac{h}{2}) p (x) = \frac{K}{N V} = \frac{\sum_{i = 1}^{n} 1 (| x_{i} - \hat{x} | < \frac{h}{2})}{N * h^{D}}$ $K(\widehat{x})=\sum_{i=1}^n k(x_i-\widehat{x}) = \sum_{i=1}^n 1(|x_i-\widehat{x}|< \frac{h}{2})\\ p(x) = \frac{K}{NV} = \frac{ \sum_{i=1}^n 1(|x_i-\widehat{x}|< \frac{h}{2})}{N*h^D}$ $K(\widehat{x})$ 表示的是与 $\widehat{x}$ 距离小于 $\frac{h}{2}$ 的样本点的个数,如下图所示：

图5 核方法中K的意义（红色点为 $\widehat{x}$ , 方框边长为h)

但是该核函数估计的概率密度在边界处不连续，可以选择更加光滑的核函数比如高斯函数解决这个问题。
$k(μ)$ 为一维高斯函数
$k (μ) = \frac{1}{\sqrt{2 π} * h} e x p - \frac{(μ)^{2}}{2 h^{2}} V = \int k (μ) d μ = 1 K (\hat{x}) = \sum_{i = 1}^{n} k (x_{i} - \hat{x})$ $k(μ) =\frac{1}{\sqrt{2π}*h} exp{- \frac{(μ)^2}{2h^2}} \\V = \int k(μ) dμ = 1 \\ K(\widehat{x})=\sum_{i=1}^n k(x_i-\widehat{x})$ 该核函数的 $K(\widehat{x})$ 表示与 $\widehat{x}$ 距离小于 $\frac{h}{2}$ 的样本点的加权个数，权值是高斯函数的值，第一个例子中的权值全为1。

平滑因子h：

图6不同平滑因子（上：平滑因子过小，估计的概率密度函数有很多毛刺，噪声；中：平滑因子适合的时候，估计的概率密度函数；下：平滑因子过大，估计的概率密度函数误差增大）

2.3K近邻估计

固定K，增大V至 $V^*$ ，使得 $V^*$ 内含有K个训练样本。

p (x) = \frac{K}{N V^{*}}

$p(x) = \frac{K}{NV^*}$
平滑因子K：

图7不同平滑因子（上：平滑因子过小，估计的概率密度函数有很多毛刺，噪声；中：平滑因子适合的时候，估计的概率密度函数；下：平滑因子过大，估计的概率密度函数误差增大）

缺点：
K近邻估计的概率密度函数并不是真正的概率密度函数。
考虑 $K=1, \exists x_i, x_i = \widehat{x} \Rightarrow V= 0 \Rightarrow p(x) = \infty$

K近邻用于分类：
用K近邻方法推出后验概率：

p (\hat{x}) = \frac{K}{N V} p (\hat{x} | C_{j}) = \frac{K_{j}}{N_{j} V} P (C_{j} | \hat{x}) = \frac{p (\hat{x} | C_{j}) * P (C_{j})}{p (\hat{x})} = \frac{K_{j}}{N_{j} V} * \frac{N_{j}}{N} * \frac{N V}{K} = \frac{K_{j}}{K}

$p(\widehat{x}) = \frac{K}{NV} \\ p(\widehat{x}|C_j) = \frac{K_j}{N_j V} \\ P(C_j|\widehat{x}) = \frac{ p(\widehat{x}|C_j)*P(C_j)}{p(\widehat{x})}= \frac{K_j}{N_j V} * \frac{N_j}{N}*\frac{NV}{K} = \frac{K_j}{K}$ 如果

P (C_{j} | \hat{x}) > P (C_{k} | \hat{x}) \forall j \neq k

$P(C_j|\widehat{x}) > P(C_k|\widehat{x}) \forall j \neq k$ ，则将样本

\hat{x}

$\widehat{x}$ 分到 j 类。

2.4 核方法和K近邻估计的缺点

需要存储训练样本，对每一个输入样本 $\widehat{x}$ ，都需要遍历整个训练样本。
$\\$

三参数方法和非参数方法的比较

方法	适用范围
参数法	各样本独立同分布，只能预先假设样本的分布
k近邻&核函数法	训练样本集数据比较少
直方图	训练样本的维数较低

综上，以上这些简单的方法都不够灵活和有效，下节将介绍更加灵活的方法——高斯混合模型。