数据集成、数据变换、维度归约、属性子集选择

1、数据集成：将多个数据源中的数据合并并存放在一个一致的数据仓库中。

数值属性数据判断重复：计算属性A和属性B的相关系数。其中相关系数在[-1,1]之间，若相关系数大于0且值越大说明相关性越强，若相关系数等于0说明相互独立不存在相关性，若小于0说明负相关。

离散属性A和B之间的相关关系可以通过卡方检验，自由度为（r-1）（c-1）,其中A的c个值构成列，B的r个值构成行。

属性冗余还可能是因为元祖重复，如单位不统一的同一个变量。

2、数据变换

数据变换是指将数据转换或统一成适合挖掘的形式。

数据变换涉及：1）光滑：去掉数据中的噪声，分箱、回归和聚类等方法

2）聚集：对数据进行汇总或聚集，如计算日销售数据、年销售数据。

3）数据泛化：使用概念分层（工资水平高中低）

4）规范化：将属性数据按比例缩放，使之落在特定的区间（[-1,0]）

扫描二维码关注公众号，回复： 2205934 查看本文章

5)属性构造：指由给定的属性构造和添加新的属性，帮助提高准确率和对高维数据结构的理解。可以构造新的属性并添加到属性集中。

数据规范化的方法：1）最大最小值规范化：v'=(v-min)/(max-min)

2)z-score规范化：v'=(v-均值)/标准差

3）小数定标：用1000除每个值

3、维度归约：指通过使用数据编码或变换，得到原数据的归约或“压缩”表示。

两种有损的维度归约方法：小波变换和主成分分析。

离散小波变换是一种线性信号处理技术，当用于数据向量X时，将它变换成数值上不同的小波系数向量X'。小波变换后数据可以截短，仅存放一小部分最强的小波系数，就能保留近似的压缩数据。

小波变换还可以消除噪声，而不会光滑所有数据特征。

应用离散小波变换的一般过程是使用一种分层金字塔算法（pyramid algorithm），它在每次迭代中将数据减半，导致很快的计算速度。

过程：1)输入数据向量的长度L必须是2的整数幂 2）每个变换涉及两个函数，第一个使用某种数据光滑，第二个进行加权差分 3)两个函数作用于X中的数据点对 4）两个函数递归地作用于前面的循环得到的数据集

主成分分析：假定待归约的数据由N个属性或维描述的元组或数据向量组成。主成分分析搜索K个最能代表数据的n维正交向量，其中k<=n。

过程：1）对输入数据规范化，使得每个属性落在相同的区域（确保较大的定义域的属性不会支配较小定义域的属性） 2）PCA计算K个标准正交向量，作为规范化输入数据的基

3）对主成分按“重要性”或强度进行降序排列

4）去掉较弱成分（即方差较小）来归约数据的规模

PCA通过寻找变量最大的投影轴，判断有多少个独立变量，并将相关量合成新量，在保留了向量x的绝大多数特征信息的前提下，通过使用低维的向量Y来替代原来维数较多的X，实习降维的目的。

PCA计算开销低，可以用于有序和无序的属性，并且可以处理稀疏和倾斜数据。

总结:小波变换适合高维数据；PCA适合稀疏数据。

4、数据归约的策略：1）数据立方体聚集 2）属性子集选择 3）维度归约 4）数值归约 5）离散化和概念分层

属性子集选择：可以检测并删除不想关、弱相关或冗余的属性。属性子集选择常用贪心算法，通过局部最优解，期望导致全局最优解。

属性子集选择包括：逐步向前、逐步向后、向前和向后一起删除、决策树归纳