Machine Learning-L2-数据特征

数据对象(样本)由属性/特征描述,属性(attribute)、特征(feature)、变量(variable)、维(dimension)一般可以互换使用。

1. 特征类型

数据属性的类型由该属性/特征可能具有的值的集合决定,可以是标称的、二元的、序数的或数值的。

标称属性、序数属性都是定性的,描述对象特征而不给出实际数量,而数值属性是定量的。

  • 标称属性(Nominal attribute)的值是一些符号或事物的名称,每个值代表某种类别、编码后状态。如婚姻状况,单身、已婚、离异、丧偶。
  • 二元属性(Binary attribute)是只有两个类别或状态的标称属性,如性别,男、女。
  • 序数属性(Ordinal attribute)的可能值之间具有有意义的序(ranking),如顾客评价,0-不满意,1-一般,2-满意。
  • 数值属性(Numeric attribute)是可度量的量,用整数或实数值表示,如温度、年龄等,可通过离散化(将值域划分为有限个有序类别)形成序数属性。

2. 特征的相关性度量

评估一个属性的值如何随另一个变化:

  • 标称属性:使用 χ 2 \chi^2 检验;
  • 数值属性:使用相关系数(correlation coefficient)和协方差(covariance)。

2.1 χ 2 \chi^2 检验

假设标称属性 A A c c 个不同值 a 1 , a 2 , . . . , a c a_1,a_2,...,a_c B B r r 个不同值 b 1 , b 2 , . . . , b r b_1,b_2,...,b_r

A A B B 描述的数据元组可以用一个相依表显示, ( A i , B j ) (A_i,B_j) 表示 ( A = a i , B = b j ) (A=a_i,B=b_j) 的联合事件,每个可能的联合事件都在表中有自己的单元。
χ 2 = i = 1 c j = 1 r ( o i j e i j ) 2 e i j \chi^2=\sum_{i=1}^{c}\sum_{j=1}^{r} \frac {{(o_{ij}-e_{ij})}^2}{e_{ij}}

其中, o i j o_{ij} 是联合事件 ( A i , B j ) (A_i,B_j) 的观察频度(实际计数),而 e i j e_{ij} ( A i , B j ) (A_i,B_j) 的期望频度。

e i j = c o u n t ( A = a i ) × c o u n t ( B = b j ) n e_{ij} = \frac {count(A=a_i) \times count(B=b_j)} {n}

χ 2 \chi^2 统计检验假设 A A B B 是独立的。检验基于显著水平,具有自由度 ( r 1 ) × ( c 1 ) (r-1) \times (c-1) 。如果可以拒绝该假设(拒绝假设的值由 χ 2 \chi^2 分布上百分点表给出),则 A A B B 是统计相关的。

爱好\性别 合计
武侠小说 250(90) 200(360) 450
爱情小说 50(210) 1000(840) 1050
合计 300 1200 1500

期望频率根据两个属性的数据分布计算,如 e i j = c o u n t ( ) × c o u n t ( ) n = 300 × 450 1500 = 90 e_{ij} = \frac {count(男) \times count(小说)} {n} = \frac {300 \times 450} {1500} = 90

χ 2 = ( 250 90 ) 2 90 + ( 50 210 ) 2 210 + ( 200 360 ) 2 360 + ( 1000 840 ) 2 840 = 284.44 + 121.90 + 71.11 + 30.48 = 507.93 \chi^2 = \frac {(250-90)^2}{90} + \frac {(50-210)^2}{210} + \frac {(200-360)^2}{360} + \frac {(1000-840)^2}{840}=284.44+121.90+71.11+30.48 = 507.93

对于自由度1,在0.001的置信水平下,拒绝假设的值是10.828。由于 χ 2 = 507.93 > 10.828 \chi^2 = 507.93>10.828 可以拒绝性别与爱好独立的假设。并断言,对于给定人群,这两个属性是(强)相关的。

2.2 Pearson 系数

数值属性 A A B B 的Pearson积矩系数(Pearson’s product moment coefficient) r A , B = i = 1 n ( a i A ) ( b i B ) n σ A σ B = i = 1 n ( a i b i ) n A B n σ A σ B r_{A,B} = \frac {\sum_{i=1}^{n}(a_i - \overline{A})(b_i - \overline{B})}{n \sigma_A \sigma_B} = \frac {\sum_{i=1}^{n}(a_i b_i) - n \overline{A} \overline{B}}{n \sigma_A \sigma_B}

其中, a i a_i b i b_i 分别是元组 i i 在属性 A A B B 上的值, A \overline{A} B \overline{B} 分别是的均值:
A = E ( A ) = i = 1 n a i n \overline{A} = E(A) = \frac {\sum_{i=1}^{n}a_i}{n} B = E ( B ) = i = 1 n b i n \overline{B} = E(B) = \frac {\sum_{i=1}^{n}b_i}{n}

σ A \sigma_A σ B \sigma_B 分别是 A A B B 的标准差:
σ A = 1 n i = 1 n ( a i A ) 2 \sigma_A = \sqrt {\frac {1}{n} \sum_{i=1}^{n}(a_i - \overline{A})^2} σ B = 1 n i = 1 n ( a i B ) 2 \sigma_B = \sqrt {\frac {1}{n} \sum_{i=1}^{n}(a_i - \overline{B})^2}

i = 1 n ( a i b i ) \sum_{i=1}^{n}(a_i b_i) A B AB 叉积和(即对于每个元组,A的值乘以该元组B的值)。

1 r A , B 1 -1 \leq r_{A,B} \leq 1

  • r A , B > 0 r_{A,B}>0 : A A B B 正相关, A A 的值随着 B B 的值增加而增加。
  • r A , B < 0 r_{A,B}<0 A A B B 负相关, A A 的值随着 B B 的值增加而减少。
  • r A , B = 0 r_{A,B}=0 A A B B 不相关, A A B B 相互独立。

相关性并不蕴含因果关系,即 A A B B 是相关的,并不意味着 A A 导致 B B B B 导致 A A

2.3 协方差

数值属性 A A B B 的协方差(covariance): C o v ( A , B ) = E ( ( A A ) ( B B ) ) = i = 1 n ( a i A ) ( b i B ) n Cov(A,B) = E((A- \overline A)(B - \overline B)) = \frac {\sum_{i=1}^{n}(a_i- \overline A)(b_i - \overline B)}{n} 可以证明 C o v ( A , B ) = E ( A B ) A B Cov(A,B) = E(A \cdot B) - \overline A \overline B

  • 如果 A A B B 趋于一起改变,则 A A B B 的协方差为正;否则为负。
  • 如果 A A B B 是相互独立的,则 E ( A B ) = E ( A ) E ( B ) E(A \cdot B) = E(A) \cdot E(B) 协方差为0,不具有相关性。

2.4 相关与相互独立

  • 相关必不独立:相关是随机变量间的一种线性关系,两个随机变量发生的概率具有相互的关系,所以必不独立。
  • 相互独立必不相关:
  • 不相关并非相互独立
    • 不相关可能独立
    • 不相关可能不独立
    • 对于服从二维正态分布的随机变量:不相关等价于相互独立
发布了17 篇原创文章 · 获赞 20 · 访问量 833

猜你喜欢

转载自blog.csdn.net/apr15/article/details/105544867