高维数据的异常检测

随着维度的增加，数据空间的大小（体积）会以指数级别增长，使数据变得稀疏，这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战，对距离的计算，聚类都带来了难题。在高维空间中，所有点对的距离几乎都是相等的（距离集中），这使得一些基于距离的方法失效。

集成是子空间思想中常用的方法之一，可以有效提高数据挖掘算法精度。集成方法将多个算法或多个基检测器的输出结合起来。其基本思想是一些算法在某些子集上表现很好，一些算法在其他子集上表现很好，然后集成起来使得输出更加鲁棒。集成方法与基于子空间方法有着天然的相似性，子空间与不同的点集相关，而集成方法使用基检测器来探索不同维度的子集，将这些基学习器集合起来。

Feature Bagging
feature bagging属于集成方法的一种。
1.选择基检测器
2.分数标准化和组合方法

基探测器的设计及其组合方法都取决于特定集成方法的特定目标。很多时候，我们无法得知数据的原始分布，只能通过部分数据去学习。算法本身也可能存在一定问题使得其无法学习到数据完整的信息, 这些问题造成的误差通常分为偏差和方差两种。

方差：是指算法输出结果与算法输出期望之间的误差，描述模型的离散程度，数据波动性。
偏差：是指预测值与真实值之间的差距。

Isolation Forests:周志华教授等人于2008年提出的异常检测算法，是机器学习中少见的专门针对异常检测设计的算法之一，方法因为该算法时间效率高，能有效处理高维数据和海量数据，无须标注样本，在工业界应用广泛。孤立森林属于非参数和无监督的算法，既不需要定义数学模型也不需要训练数据有标签。孤立森林查找孤立点的策略非常高效。树的构造方法和随机森林(random forests)中树的构造方法有些类似。

从训练数据中随机选择一个样本子集，放入树的根节点；
随机指定一个属性，随机产生一个切割点V，即属性A的最大值和最小值之间的某个数；
根据属性A对每个样本分类，把A小于V的样本放在当前节点的左孩子中，大于等于V的样本放在右
孩子中，这样就形成了2个子空间；
在孩子节点中递归步骤2和3，不断地构造左孩子和右孩子，直到孩子节点中只有一个数据，或树的
高度达到了限定高度。
获得t棵树之后，孤立森林的训练就结束，就可以用生成的孤立森林来评估测试数据。

总结
1.feature bagging可以降低方差
2.孤立森林的优势在于：
计算成本相比基于距离或基于密度的算法更小。
具有线性的时间复杂度。
在处理大数据集上有优势。
孤立森林不适用于超高维数据，因为鼓励森林每次都是随机选取维度，如果维度过高，则会存在过多噪音。

高维数据的异常检测

猜你喜欢