版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/weixin_40042143/article/details/82954301
数据会收到噪声、缺失值和不一致数据的侵扰。数据预处理技术:数据清理可以清除数据中的噪声;数据集成可以将数据由多个数据源合并成一个一致的数据存储;数据变换可以将数据压缩到较小的区间如0-1;数据归纳可以通过如聚集、删除荣誉特征或聚类来降低数据的规模。
数据清理---缺失值
- 忽略元组:不能使用该元组的剩余属性值。除非元组有多个属性缺少值,不然该方法不是很有效
- 人工填写缺失值:当数据集很大,缺失值很多时不可行
- 使用一个全局常量填充缺失值:将缺失的属性值用一个常量替换
- 使用属性的中心度量填充缺失值
- 使用最可能的值填充缺失值:利用数据集中的其他属性预测缺失值-----最流行
数据清理---噪声数据
噪声是被测量的变量的随机误差或方差----如何光滑数据,去掉噪声
- 分箱:考察数据的近邻(周围的值)来光滑 有序数据值---局部光滑
- 回归:用一个拟合函数来光滑数据
- 离群点分析:通过聚类来检测离群点,聚类将类似的值组织成群或簇,落在簇集合外的值被认为是离群点。
数据集成---实体识别为问题
数据分析分体常涉及数据集成,将多个数据中的数据合并,存放在一个一致的数据存储中。
两个存储中的属性匹配
数据集成---冗余和相关性分析
一个属性能由另一个或另一组属性导出---冗余
数据的冗余可以被相关分析检测到
扫描二维码关注公众号,回复:
5300447 查看本文章
数据集成---元组重复
数据集成---数据值冲突的检测与处理
因为表示,尺码或编码不同,属性值不同。
数据归纳---数据归纳策略概述
维归纳:dimensionality reduction:减少所考虑的随机变量或属性的个数,方法:小波变换和主成分分析,将原数据变换或投影到较小的空间。
数量归纳:用替代的、较小的数据表示形式替换原始数据
数据压缩:使用变换,得到原数据的归约或压缩表示。如果原数据能够从压缩后的数据重构而不损失信息,则该数据归约称为无损的;如果只能近似重构原数据,则该数据归约称为有损的。
数据归约---小波变换
数据归约-主成分分析
搜索k个最能代表数据的n维正交向量,其中k<=n
数据归约---属性子集选择
删除不相关或冗余的属性减少数据量。----找出最小的属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布,
数据归纳--回归和对数线性模型:参数化数据归约
回归和对数线性模型可以近似给定的数据
对数线性模型:近似离散的多维概率分布