数据对象(样本)由属性/特征描述,属性(attribute)、特征(feature)、变量(variable)、维(dimension)一般可以互换使用。
1. 特征类型
数据属性的类型由该属性/特征可能具有的值的集合决定,可以是标称的、二元的、序数的或数值的。
标称属性、序数属性都是定性的,描述对象特征而不给出实际数量,而数值属性是定量的。
- 标称属性(Nominal attribute)的值是一些符号或事物的名称,每个值代表某种类别、编码后状态。如婚姻状况,单身、已婚、离异、丧偶。
- 二元属性(Binary attribute)是只有两个类别或状态的标称属性,如性别,男、女。
- 序数属性(Ordinal attribute)的可能值之间具有有意义的序(ranking),如顾客评价,0-不满意,1-一般,2-满意。
- 数值属性(Numeric attribute)是可度量的量,用整数或实数值表示,如温度、年龄等,可通过离散化(将值域划分为有限个有序类别)形成序数属性。
2. 特征的相关性度量
评估一个属性的值如何随另一个变化:
- 标称属性:使用
χ2检验;
- 数值属性:使用相关系数(correlation coefficient)和协方差(covariance)。
2.1
χ2检验
假设标称属性
A有
c个不同值
a1,a2,...,ac,
B有
r个不同值
b1,b2,...,br。
A和
B描述的数据元组可以用一个相依表显示,
(Ai,Bj)表示
(A=ai,B=bj)的联合事件,每个可能的联合事件都在表中有自己的单元。
χ2=i=1∑cj=1∑reij(oij−eij)2
其中,
oij是联合事件
(Ai,Bj)的观察频度(实际计数),而
eij是
(Ai,Bj)的期望频度。
eij=ncount(A=ai)×count(B=bj)
χ2统计检验假设
A和
B是独立的。检验基于显著水平,具有自由度
(r−1)×(c−1)。如果可以拒绝该假设(拒绝假设的值由
χ2分布上百分点表给出),则
A和
B是统计相关的。
爱好\性别 |
男 |
女 |
合计 |
武侠小说 |
250(90) |
200(360) |
450 |
爱情小说 |
50(210) |
1000(840) |
1050 |
合计 |
300 |
1200 |
1500 |
期望频率根据两个属性的数据分布计算,如
eij=ncount(男)×count(小说)=1500300×450=90
χ2=90(250−90)2+210(50−210)2+360(200−360)2+840(1000−840)2=284.44+121.90+71.11+30.48=507.93
对于自由度1,在0.001的置信水平下,拒绝假设的值是10.828。由于
χ2=507.93>10.828可以拒绝性别与爱好独立的假设。并断言,对于给定人群,这两个属性是(强)相关的。
2.2 Pearson 系数
数值属性
A和
B的Pearson积矩系数(Pearson’s product moment coefficient)
rA,B=nσAσB∑i=1n(ai−A)(bi−B)=nσAσB∑i=1n(aibi)−nAB
其中,
ai和
bi分别是元组
i在属性
A和
B上的值,
A 和
B分别是的均值:
A=E(A)=n∑i=1nai
B=E(B)=n∑i=1nbi
σA和
σB分别是
A和
B的标准差:
σA=n1i=1∑n(ai−A)2
σB=n1i=1∑n(ai−B)2
∑i=1n(aibi)是
AB叉积和(即对于每个元组,A的值乘以该元组B的值)。
−1≤rA,B≤1:
-
rA,B>0:
A和
B正相关,
A的值随着
B的值增加而增加。
-
rA,B<0:
A和
B负相关,
A的值随着
B的值增加而减少。
-
rA,B=0:
A和
B不相关,
A和
B相互独立。
相关性并不蕴含因果关系,即
A和
B是相关的,并不意味着
A导致
B或
B导致
A。
2.3 协方差
数值属性
A和
B的协方差(covariance):
Cov(A,B)=E((A−A)(B−B))=n∑i=1n(ai−A)(bi−B)可以证明
Cov(A,B)=E(A⋅B)−AB
- 如果
A和
B趋于一起改变,则
A和
B的协方差为正;否则为负。
- 如果
A和
B是相互独立的,则
E(A⋅B)=E(A)⋅E(B) 协方差为0,不具有相关性。
2.4 相关与相互独立
- 相关必不独立:相关是随机变量间的一种线性关系,两个随机变量发生的概率具有相互的关系,所以必不独立。
- 相互独立必不相关:
- 不相关并非相互独立
- 不相关可能独立
- 不相关可能不独立
- 对于服从二维正态分布的随机变量:不相关等价于相互独立