噪声数据:是指数据中存在着错误或异常(偏离异常值)的数据,这些数据对数据分析造成了干扰。即无意义数据,现阶段的意义已经扩展到包含所有难以被机器正确理解和翻译的数据,如非结构化文本。任何不可被源程序读取和运用的数据,不管是已经接受、存贮的还是改变的,都成为噪声。
噪声产生的原因有:数据收集工具的问题、数据输入错误、数据传输错误、技术限制、命名规则的不一致
因为噪声对数据分析造成了干扰,所以我们需要去掉噪声或者平滑数据。现在介绍一种初级的方法:分箱
“分箱”是将属性的值域划分成若干连续子区间。如果一个属性值在某个子区间范围内,就把该值放进这个子区间所代表的“箱子”内。把所有待处理的数据(某列属性值)都放进箱子内,分别考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。
对数据进行分箱主要有以下四种方法:
- 等深分箱法:将数据集按记录行数分箱,每箱具有相同的记录数,称为箱子的深度
- 等宽分箱法:将数据集在整个属性值的区间上平均分布,每个箱子的区间范围是一个常量,称为箱子宽度
在整个属性值的区间上平均分布,即每个箱的区间范围设定为一个常量,称为箱子的宽度。
简而言之,将变量的取值范围分为k个等宽的区间,每个区间当作一个分箱。例如年龄变量(0-100之间),可分成 [0,20],[20,40],[40,60],[60,80],[80,100]五个等宽的箱
- 最小熵法:在分箱时考虑因变量的取值,使得分箱后箱内达到最小熵
- 用户自定义区间法:根据数据特点,指定分箱的方法
每种分箱具体步骤:
(1)首先排序数据,并将他们分到等深(等宽)的箱中;
(2)然后可以按箱的平均值、按箱中值或者按箱的边界等进行平滑
按箱的平均值平滑:箱中每一个值被箱中的平均值替换
按箱的中值平滑:箱中的每一个值被箱中的中值替换
按箱的边界平滑:箱中的最大和最小值被视为箱边界,箱中的每一个值被最近的边界值替换
等宽分箱:
使用等宽方法将数据组分为3个箱:11,13, 5,10,15,3572,92,204,215,50,55
我们首先进行排序,排完序后为: 5,10,11,13,15,35,50,55,72,92,204,215
因为箱中数据宽度要相同,所以每个箱的宽度应是(215-5)/3=70
即要求箱中数据之差不能超过70.
所以答案为
Bin-1:5,10,11,13,15,35,50,55,72;
Bin-2:92;
Bin-3:204,205;
平均值平滑
已知一组价格数据:15,21,24,21,25,4,8,34,28
现用等宽(宽度为10)分箱方法对其进行平滑,以对数据中的噪声进行处理。
步骤:
(1)排序:4,8,15,21,21,24,25,28,34
(2)根据更宽分箱法,宽度为10
得到:
Bin-1:4,8
Bin-2:15,21,21,24,25
Bin-3:28,34
(3)根据平均值平滑的定义:箱中的每一个值被箱中的平均值替换
(3)得到结果:
Bin-1:6,6
Bin-2:21,21,21,21,21
Bin-3:31,31
边界平滑
Bin-1:4,8
Bin-2:15,25,25,25,25( |15-21|=6,|25-21|=4,|25-24|=1)
Bin-3:28,34