数据挖掘学习（一）

数据质量通常不完美，存在的问题：噪声、离群点。

数据集的一般特性：纬度、稀疏性、分辨率。

数据集的维度：是数据集中的对象具有的属性数目。低纬度数据往往与中、高维度数据有着质的不同。分析高维数据有事会陷入数据灾难，所以再进行数据与处理时减少维度很重要。

稀疏性：指的是数据集的属性上大部分的值为0；

分辨率：数据的模式依赖于分辨率，分辨率太高，噪声严重，模式可能被掩藏在噪声中；分辨率太低，则模式可能不出现。

由于无法避免数据质量问题，因此数据挖掘着眼于两个方面：

（ 1）数据质量问题的检测和纠正；（2）使用可以容忍低质量数据的算法。第一步的检测和纠正，通常称为数据清理。

噪声：噪声是测量误差的随机部分。再有噪声的情况下，常常使用信号或者图像处理技术降低噪声，从而帮组发现可能“淹没在噪声中”的模式（信号）。完全消除噪声是困难的，数多数据挖掘工作都关注设计鲁棒算法，即在有噪声的的情况下也能产生可以接受的结果。

定义精度：（同一个量的）重复测量值之间的接近程度；通常用值集合的（无偏）标准差度量。

定义偏移：测量值与被测值之间的系统的变差。

关于数据的知识：两系那个情况下，数据集附有描述数据的文档。如果文档标明若干属性是强相关的，则说明这些属性可能提供了高度冗余的信息。我们可以考虑只保留一个。

》数据预处理：聚集、抽样、维归约、特征子集选择、特征创建、离散化和二元化、变量变化。这些项目分为两类，即选择分析所需的数据对象和属性以及创建/改变属性。

》可视化

这里简单的围绕三种类型：少量属性的可视化，具有时间和/或空间属性的数据可视化，具有大量属性的数据可视化。

盒状图（box plot）:盒的下断和上端分别指示第25和第75个百分位数，而盒中的线指示第50个百分位数的值，底部和顶部的尾线知识第10和第90个百分位数，离群值用“+”表示。

散布图散布图使用数据对象两个属性的值作为x和y坐标值，每个数据对象都作为平面上的一个点绘制。扩展的二位和三维图：在散布图中，使用颜色或阴影、大小、形状，散布图可以显示三个附加信息，可以表达五个或六个维。将六个维的信息放进二维或三维图中没有多少好处，如果做的话也不可能理解。

表示高维数据：矩阵、星形坐标。