数据挖掘笔记——数据预处理

什么是数据?

    数据对象和属性的集合

一、属性的类型

属性常常用操作来描述,操作有

a. 相异性:

b.顺序大小

c.加法减法

d.乘法与除法

根据这些操作可以将属性分为:

a.      标称属性(Nominal attribute):只能区分是否相等,例如ID

b.      序数属性(Ordinal attribute):可以区分顺序大小,例如成绩分为优良中

c.      区间属性(Interval attribute):有大小之分,而且相加或者差值有意义,例如日期

d.      比率属性(Ratio attribute):差值或者比率都是有意义的,例如:年龄

或者可以根据值的个数分为:离散型属性和连续性属性

非对称属性(asymmetric attribute):出现非零属性值才是重要的

二、数据集类型

1.记录数据

a.数据矩阵:关系数据库中的关系数据

b.文件数据:文档与term组成的表


c.交易数据:每条记录是一些对象的集合


 

2.图数据

a.万维网(World Wide Web):通过链接进行连接

b.分子结构

3.顺序数据

a.空间数据

b.时间数据

c.序列数据

三、数据的要求

准确性,完整性,一致性,实时性,可信度不附加,只可解释性和易获得性

同时数据容易存在的问题:

缺失值、数据不连续、重复数据、冗余数据、噪声和异常点

如果没有高质量的数据,将不可能得到高质量的数据分析结果

四、数据预处理(数据清洗,数据集成,数据转换,数据约简,数据离散化)

1.数据清洗

a.缺失值的处理

        方法:对于相对于整体数据集,少量缺失值的数据可以直接删除含缺失值的数据;

而其他情况,可以:专家预测合理的值;使用特定的标记(如NaN);使用平均数或者众数代替缺失值;使用最可能的数值代替(周围样本的组合)

b.平滑噪声数据

        噪声来源:不正确的收集工具,错误的数据录入,数据传输有问题,技术限制和数据命名不一致

        处理:将数据进行分箱处理,然后组内组内进行平滑;回归,将数据拟合回归函数来平滑数据;聚类检测,并且剔出异常点。

c.纠正不一致的数据

d.删除冗余数据

2.数据集成

可以解决来自不同数据源数据、同一实体识别、相同数据不同度量尺度的问题

但是数据集成操作会造成数据的冗余,可以使用相关性检测

a.对于连续数值数据,可以使用Pearson相关系数,rA,B=0才不相关,小于零负相关大于零正相关

b.对于离散的数值数据,可以使用卡方检验,Χ2越大越有可能相关

3.数据转换

a.平滑并消除噪声

b.数据的整合:例如构造数据立方体

c.概念的聚合:数据上升到上一层概念

d.标准化:将数据映射到一个特定的范围

        有min-max标准化

Z-score标准化

十进制缩放

e.      属性/特征的构造:利用现有的属性构造新的属性

4.数据约简

a.数据聚合

有纵向属性和横向数据两个方面,将两个或多个属性或者对象组合成一个属性或对象,例如将四个季度的销售额汇总为一年的销售额。可以实现属性和数据量上的减少,数据范围的变化,有些甚至可以使数据变得平稳(例如每月销售可能波动较大但整年的总销售额变化不会很大)

b.数据压缩

        如果是字串压缩一般不允许有信息丢失,例如“abcccddddddefgggggggggghijk”可以压缩成用出现次数替代重复字符“ab3c6def10ghijk”;

如果是视频或者语音上的压缩容许丢一些信息;

如果是数值型数据,可以选用全的编码方式、构建描述数据的模型并只需保存模型的参数、保留数据的数值特征如均值、众数等;保存数据构成的的条形图;将数据聚类只需保存类别的质心和半径;抽取样本代替整体数据集。

5.数据离散化

减少数据大小、一些分类算法只接受离散型数据

a.      直方图

b.      有监督与无监督的方法

c.      自上而下地分割和自下而上的合并

d.      概念上的合并:例如年龄可以分为青年中年老年

e.      基于熵的离散化:决策树的结点划分

五、相似性和相异性

1.属性的相似相异性

2.数据对象的相似相异性

a.闵可夫斯基(Minkowski Distance)

当n=1时,称为曼哈顿距离(Manhattandistance)

当n=2时,称为欧氏距离(Euclideandistance):不足:受数据量纲影响(如长度使用千米影响小、使用厘米影响大),不能体现数据对象间关系

当n无穷大时,称为切比雪夫距离(Chebyshev distance)各个坐标的最大值

b.马氏距离(MahalanobisDistance)

可以弥补欧式距离的不足

c.特殊的数据——二进制向量

d.余弦相似度

cos( d1, d2 )=  (d1 · d2)/ ||d1|| ||d2|| 

注:相似度的度量要根据数据的类型,对于连续和稠密的数据使用欧氏距离,对于稀疏的数据使用余弦相似度和Jaccard


猜你喜欢

转载自blog.csdn.net/xuqn0606/article/details/79602884