数据挖掘---数据预处理

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/weixin_40042143/article/details/82954301

数据会收到噪声、缺失值和不一致数据的侵扰。数据预处理技术:数据清理可以清除数据中的噪声;数据集成可以将数据由多个数据源合并成一个一致的数据存储;数据变换可以将数据压缩到较小的区间如0-1;数据归纳可以通过如聚集、删除荣誉特征或聚类来降低数据的规模。


数据清理---缺失值

  • 忽略元组:不能使用该元组的剩余属性值。除非元组有多个属性缺少值,不然该方法不是很有效
  • 人工填写缺失值:当数据集很大,缺失值很多时不可行
  • 使用一个全局常量填充缺失值:将缺失的属性值用一个常量替换
  • 使用属性的中心度量填充缺失值 
  • 使用最可能的值填充缺失值:利用数据集中的其他属性预测缺失值-----最流行

 数据清理---噪声数据

噪声是被测量的变量的随机误差或方差----如何光滑数据,去掉噪声

  • 分箱:考察数据的近邻(周围的值)来光滑 有序数据值---局部光滑
  • 回归:用一个拟合函数来光滑数据
  • 离群点分析:通过聚类来检测离群点,聚类将类似的值组织成群或簇,落在簇集合外的值被认为是离群点。

数据集成---实体识别为问题

数据分析分体常涉及数据集成,将多个数据中的数据合并,存放在一个一致的数据存储中。

两个存储中的属性匹配

数据集成---冗余和相关性分析

一个属性能由另一个或另一组属性导出---冗余

数据的冗余可以被相关分析检测到

 

扫描二维码关注公众号,回复: 5300447 查看本文章

 

数据集成---元组重复

 数据集成---数据值冲突的检测与处理

因为表示,尺码或编码不同,属性值不同。


数据归纳---数据归纳策略概述

维归纳:dimensionality reduction:减少所考虑的随机变量或属性的个数,方法:小波变换和主成分分析,将原数据变换或投影到较小的空间。

数量归纳:用替代的、较小的数据表示形式替换原始数据

数据压缩:使用变换,得到原数据的归约或压缩表示。如果原数据能够从压缩后的数据重构而不损失信息,则该数据归约称为无损的;如果只能近似重构原数据,则该数据归约称为有损的。

数据归约---小波变换

数据归约-主成分分析

搜索k个最能代表数据的n维正交向量,其中k<=n

数据归约---属性子集选择

删除不相关或冗余的属性减少数据量。----找出最小的属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布,

数据归纳--回归和对数线性模型:参数化数据归约 

回归和对数线性模型可以近似给定的数据

对数线性模型:近似离散的多维概率分布

数据归约---聚类

数据归约---抽样

猜你喜欢

转载自blog.csdn.net/weixin_40042143/article/details/82954301