机器学习笔记7——异常检测(Anomaly Detection)

前言:这是机器学习算法的一个应用,主要用于无监督学习。

一、定义

    已知有了一些数据,,新来一个数据,需要判断这个数据是否异常。

给定无标签数据集,对数据建模为P(x),x为特征变量。如果,就是阈值,那么就认为这是异常。

二、利用高斯分布进行异常检测(样本都无标记)

1、条件

每个数据有n个特征,可以理解为n维,每个特征都服从自己的高斯分布。


2、总结步骤


三、算法评估(有些样本有标记)

3.1 要求

通常训练集是无标签的,然后用交叉验证集合测试集来评估异常检测算法,假设这两个集合包含了一些已知异常的样本。

3.2 步骤

(1)已知有很多个正常的样本比如10000个吧和2-50个异常的样本这里就20个吧,需要把它们分成训练集,验证集合测试集。

训练集:6000个正常样本(标签为y=0)

验证集:2000个正常样本(标签为y=0)和10个异常样本(y=1)

测试集:2000个正常样本(y=0)和10个异常样本(y=1)

(2)用训练集来计算

(3)步骤


四、异常检测与监督学习

4.1、使用异常检测的情况

(1)y=1很少,一般0——20个

(2)y=0很多

4.2、使用监督学习的情况

(1)正样本,负样本都很多

(2)正样本数量多到算法可以了解正样本大概什么样子

五、异常检测特征的选择

5.1 如果一个特征的分布不像高斯分布,可以先对这个特征取对数,然后会发现取对数之后变得像高斯分布了

5.2 当正常样本混入一个异常样本时,就启发我们维度太低了,需要增加特征,那么就再增加一个特征,如图:

六、多变量高斯分布

6.1 定义

协等高线分布方差矩阵会改变特征的分布形状的高度,方向,宽窄

均值会改变顶峰的位置

(可以参考GPR的联合高斯分布)

概率密度函数为

6.3 原始模型与多变量高斯分布


一般原始模型应用比较多


这是观看吴恩达网易云机器学习系列做的笔记

图片来源于视频课件

猜你喜欢

转载自blog.csdn.net/qq_40597317/article/details/80953667