数据挖掘学习(一)

数据质量通常不完美,存在的问题:噪声、离群点。

数据集的一般特性:纬度、稀疏性、分辨率。

数据集的维度:是数据集中的对象具有的属性数目。低纬度数据往往与中、高维度数据有着质的不同。分析高维数据有事会陷入数据灾难,所以再进行数据与处理时 减少维度很重要。

稀疏性:指的是数据集的属性上大部分的值为0;

分辨率:数据的模式依赖于分辨率,分辨率太高,噪声严重,模式可能被掩藏在噪声中;分辨率太低,则模式可能不出现。

  由于无法避免数据质量问题,因此数据挖掘着眼于两个方面:

 ( 1)数据质量问题的检测和纠正;(2)使用可以容忍低质量数据的算法。第一步的检测和纠正,通常称为数据清理。

  噪声:噪声是测量误差的随机部分。再有噪声的情况下,常常使用信号或者图像处理技术降低噪声,从而帮组发现可能“淹没在噪声中”的模式(信号)。 完全消除噪声是困难的,数多数据挖掘工作都关注设计鲁棒算法,即在有噪声的的情况下也能产生可以接受的结果。

  定义  精度:(同一个量的)重复测量值之间的接近程度;通常用值集合的(无偏)标准差度量。

 定义   偏移:测量值与被测值之间的系统的变差。

 

关于数据的知识: 两系那个情况下,数据集附有描述数据的文档。如果文档标明若干属性是强相关的,则说明这些属性可能提供了高度冗余的信息。我们可以考虑只保留一个。


》 数据预处理 : 聚集、抽样、维归约、特征子集选择、特征创建、离散化和二元化、变量变化。这些项目分为两类,即选择分析所需的数据对象和属性以及创建/改变属性。

》可视化

这里简单的围绕三种类型:少量属性的可视化,具有时间和/或空间属性的数据可视化,具有大量属性的数据可视化。

盒状图(box plot):盒的下断和上端分别指示第25和第75个百分位数,而盒中的线指示第50个百分位数的值,底部和顶部的尾线知识第10和第90个百分位数,离群值用“+”表示。

  散布图     散布图使用数据对象两个属性的值作为x和y坐标值,每个数据对象都作为平面上的一个点绘制。扩展的二位和三维图:在散布图中,使用颜色或阴影、大小、形状,散布图可以显示三个附加信息,可以表达五个或六个维。  将六个维的信息放进二维或三维图中没有多少好处,如果做的话也不可能理解。

 表示高维数据: 矩阵、星形坐标。


 

猜你喜欢

转载自blog.csdn.net/qq_40981268/article/details/81587698
今日推荐