异常检测(Anomaly Detection)

github:代码实现
本文算法均使用python3实现


1. 异常检测

1.1 异常检测是什么?

  异常检测即为发现与大部分样本点不同的样本点,也就是离群点
  我们可通过下面这个例子进行理解,在飞机引擎制造商对制造好的飞机引擎进行测试时,选择了对飞机引擎运转时产生的热量以及震动强度进行测试,测试后的结果如下:


  很明显我们能够看出,存在一个点(绿色),其热量较低时震动强度却很高,它在坐标轴中的分布明显偏离了其它的样本点。因此我们可以认为这个样本点就是异常点离群点

1.2 异常检测的方法

  异常检测不同于监督学习,其正样本(异常点)容量明显远小于负样本(正常点)的容量,因此我们并不能使用监督学习的方法来进行异常检测的判断。对于异常检测主要有以下几种方法:
  (1)基于模型的技术:许多异常检测技术首先建立一个数据模型,异常是那些同模型不能完美拟合的对象。例如,数据分布的模型可以通过估计概率分布的参数来创建。在假设一个对象服从该分布的情况下所计算的值小于某个阈值,那么可以认为他是一个异常对象。
  (2)基于邻近度的技术:通常可以在对象之间定义邻近性度量,异常对象是那些远离大部分其他对象的对象。当数据能够以二维或者三维散布图呈现时,可以从视觉上检测出基于距离的离群点。
  (3)基于密度的技术:对象的密度估计可以相对直接计算,特别是当对象之间存在邻近性度量。低密度区域中的对象相对远离近邻,可能被看做为异常。
  本文主要讨论基于模型的异常检测方法

1.3 基于模型的异常检测基本步骤

  (1)对样本集进行建模: $ P(x) $ ,即对 $ x $ 的分布概率进行建模
  (2)对于待检测样本 $ x_{test} $ ,若 $ P(x_{test}) < \epsilon $ 则样本为异常,若 $ P(x_{test}) > \epsilon $ 则样本为正常。


2. 高斯分布

2.1 什么是高斯分布?

  高斯分布即为正态分布。是指对于样本 $ x \in R $ ,假设其服从均值 $ \mu $ ,方差 $ \sigma^2 $ 的高斯分布,可记为 $ x \sim N(\mu, \sigma^2) $ 。其概率密度函数可记为: \[ P(x;\mu, \sigma^2) = \frac{1}{\sqrt{2 \pi} \sigma} exp(- \frac{(x-\mu)^2}{2 \sigma^2}) \]
  概率密度函数图像如下:


  其中均值 $ \mu $ 决定了曲线的中心位置,而 $ \sigma $ 决定了曲线的宽度
  差别可见下图:


2.2 高斯分布的参数估计

  对于数据集 $ D=\lbrace x^{(1)}, x^{(2)},...,x^{(m)} \rbrace $ ,其中 $ x^{(i)} $ 为一维的,即只有一个特征,共有 $ m $ 个样本。我们对高斯分布的参数 $ \mu , \sigma^2 $ 进行参数估计: \[ \mu = \frac{1}{m} \sum_{i=1}^m x^{(i)} \] \[ \sigma^2 = \frac{1}{m} \sum_{i=1}^m (x^{(i)}-\mu)^2 \]
  该参数估计使用极大似然估计法,详细可参考极大似然估计法相关博文

2.3 基于高斯分布的异常检测

  我们是如何利用高斯分布进行异常检测的呢?
  假设对于样本集中的每个特征都相互独立且都服从高斯分布(当不服从高斯分布时,使用 $ \log(x) $ 来转换),因此我们需要计算出所有特征对应的高斯分布的参数,再通过计算 $ P(x) = P(x_1;\mu_1,\sigma_1^2)P(x_2;\mu_2,\sigma_2^2) \cdots P(x_n;\mu_n,\sigma_n^2) $ ,比较 $ P(x) $ 与阈值 $ \epsilon $ 即可。
  具体步骤如下:
  (1)使用训练集拟合参数: $ \mu_1,\mu_2,...,\mu_n;\sigma_1^2, \sigma_2^2,...,\sigma_n^2 $ \[ \mu_j = \frac{1}{m} \sum_{i=1}^m x_j^{(i)} \] \[ \sigma_j^2 = \frac{1}{m} \sum_{i=1}^m (x_j^{(i)}-\mu_j)^2 \]
    其中 $ j=1,2...,n $ 表示特征数, $ i=1,2,...,m $ 为样本数。
  (2)给定新样本 $ x $ ,计算 $ P(x) $ \[ P(x) = \prod_{j=1}^n P(x_j;\mu_j,\sigma_j^2) = \prod_{j=1}^n \frac{1}{\sqrt{2 \pi} \sigma_j} exp(- \frac{(x_j-\mu_j)^2}{2 \sigma_j^2}) \]
  (3)若 $ P(x) < \epsilon $ 则判断为异常点。

2.4 异常检测算法的评估指标

  如何评价一个异常检测算法呢?
  和监督学习算法一样,我们可以对样本集进行划分,划分成训练集,交叉验证集,测试集。对于训练集,均是正常样本;而交叉验证集测试集存在大量正常样本与少数异常样本。我们通过训练集建立概率模型,使用交叉验证集进行参数的调整(比如 $ \epsilon $ 的选择),使用测试集进行模型的测试与模型的评估
  由于异常检测是有偏数据,因此不可以使用分类准确率。而其可以使用的评估指标有:
  (1)True Positive,False Positive,False Negative, True Negative
  (2)Precision.Recall
  (3)F1-score

2.5 异常检测 v.s. 监督学习

            


3. 多元高斯分布

  利用高斯分布进行异常检测存在一个巨大的前提各个特征之间独立同分布。往往在现实生活中并不能保证各特征之间是独立同分布的,而是或多或少有一些相关性。我们使用下面的例子进行理解:


  对于上图我们可以看出,存在一个异常点(绿色)。假如我们按照基于独立同分布的高斯分布进行分析,将样本点分别投影在两个坐标轴中,见下图:


  由于异常点存在于正常点之间,根据计算并不满足 $ P(x) < \epsilon $ ,因此我们很容易将该点划分为正常样本。那么对于这样的数据集,我们该如何进行异常检测呢?答案是多元高斯分布

3.1 什么是多元高斯分布?

  多元高斯分布不再是对特征单独建模,而是对所有特征进行统一建模。其模型参数为 $ \mu \in R^n , \Sigma \in R^{n \times n} $ 。其概率密度函数可记为: \[ P(x;\mu, \Sigma) = \frac{1}{(2 \pi)^{\frac{n}{2}} |\Sigma|^{\frac{1}{2}}} exp(-\frac{1}{2} (x- \mu)^T \Sigma^{-1} (x- \mu)) \]
  其中 $ \mu = [\mu_1,\mu_2,...,\mu_n]^T $ 是特征均值向量,$ \Sigma $ 为协方差矩阵。
  以下是参数 $ \mu , \Sigma $ 对于概率分布函数的图像影响:




3.2 多元高斯分布的参数估计

  对于数据集 $ D=\lbrace x^{(1)}, x^{(2)},...,x^{(m)} \rbrace $ ,其中 $ x^{(i)} $ 为 $ n $ 维的,即有 $ n $ 个特征,共有 $ m $ 个样本。我们对高斯分布的参数 $ \mu , \Sigma $ 进行参数估计: \[ \mu = \frac{1}{m} \sum_{i=1}^m x^{(i)} \] \[ \Sigma = \frac{1}{m} \sum_{i=1}^m (x^{(i)} - \mu)(x^{(i)} - \mu)^T \]
  以上是基于矩阵的计算,其中 \[ x^{(i)} = \begin{bmatrix} x_1^{(i)} \\ x_2^{(i)} \\ \vdots \\ x_n^{(i)} \\ \end{bmatrix} \mu = \begin{bmatrix} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_n \\ \end{bmatrix} \]

3.3 基于多元高斯分布的异常检测

  具体步骤如下:
  (1)使用训练集拟合参数: $ \mu, \Sigma $ \[ \mu = \frac{1}{m} \sum_{i=1}^m x^{(i)} \] \[ \Sigma = \frac{1}{m} \sum_{i=1}^m (x^{(i)} - \mu)(x^{(i)} - \mu)^T \]
    其中 $ i=1,2,...,m $ 为样本数,共有 $ n $ 个特征。
  (2)给定新样本 $ x $ ,计算 $ P(x) $ \[ P(x) = P(x; \mu ,\Sigma ) = \frac{1}{(2 \pi)^{\frac{n}{2}} |\Sigma|^{\frac{1}{2}}} exp(-\frac{1}{2} (x- \mu)^T \Sigma^{-1} (x- \mu)) \]
  (3)若 $ P(x) < \epsilon $ 则判断为异常点。

3.4 简单高斯分布模型 v.s. 多元高斯分布模型

            


引用及参考:
[1] 《Machine Learning》Andrew Ng
[2] https://blog.csdn.net/u012328159/article/details/51462942
[3] https://blog.csdn.net/whuhan2013/article/details/53688915

写在最后:本文参考以上资料进行整合与总结,属于原创,文章中可能出现理解不当的地方,若有所见解或异议可在下方评论,谢谢!
若需转载请注明https://www.cnblogs.com/lliuye/p/9174453.html

猜你喜欢

转载自www.cnblogs.com/lliuye/p/9174453.html