【数据挖掘】壹 · 数据度量及预处理

目录

  1. 区间标度变量
  2. 二元变量
  3. 标称变量
  4. 序数型变量
  5. 比例标度变量
  6. 混合类型变量

1 区间标度变量

区间标度变量是一个粗略线性标度的连续度量,一般有单位描述。

数据规范化
有以下几种方法:

  • 最小-最大规范化,又称离散标准化,是对原始数据进行线性变换。这种方法保留了原来数据中存在的关系,是消除量纲和数据取值范围影响的最简单方法。
    假设将一组数据 x x 映射到 [ a ,   b ] [a, ~b] 范围里: x = x M i n M a x M i n ( b a ) + a x^{*}=\frac{x-Min}{Max-Min}·(b-a)+a 其中 M i n M a x Min、Max 为数据 x x 的最小值和最大值。当 a = 0 b = 1 a=0,b=1 时,将数据映射到区间 [ 0 ,   1 ] [0,~1] 内: x = x M i n M a x M i n x^{*}=\frac{x-Min}{Max-Min}
  • 小数定标规范化:通过移动属性的小数点位置规范化属性范围,属性A的规范化计算方法为: x = x 1 0 T x^{*}=\frac{x}{10^T} 其中,T的取值约束为: m a x ( Z i f ) < 1 max(|Z_{if}|)<1 的最小整数。
    目的:将属性值缩到小的特定区间 [ 1 , 1 ] [-1,1] 之间。
  • Z-score规范化(最常用): x = ( x μ ) / δ x^{*}=(x- μ)/δ 其中 μ μ 为均值, δ δ 为标准差。

对象间相异度
对象间相异度一般来说是基于距离的度量,常见的距离计算公式有:

  • 欧几里得距离 d 12 = ( x 1 x 2 ) 2 + ( y 1 y 2 ) 2 d_{12}=\sqrt{(x_1-x_2)^2+(y_1-y_2)^2}
  • 曼哈顿距离 d 12 = x 1 x 2 + y 1 y 2 d_{12}=|x_1-x_2|+|y_1-y_2|
  • 切比雪夫距离 d 12 = m a x ( x 1 x 2 ,   y 1 y 2 ) d_{12}=max(|x_1-x_2|,~|y_1-y_2|)
  • 汉明距离:相同位上字符不同的个数。(例如:aaaa和bbba之间的距离为3)

2 二元变量

计算机中一个二元变量有两种状态:0或1。一个对象可以包含多个二元变量。
在这里插入图片描述

对称二元变量
对于两个状态具有同等价值并且携带相同的权重,对称二元变量的相似度称为恒定的相似度。
评估相异度:简单匹配系数 d 12 = b + c a + b + c + d d_{12}=\frac{b+c}{a+b+c+d}

非对称二元变量
对于两个状态具有不同等价值并或携带不同的权重,或者说偏爱某个状态,非对称二元变量的相似度称为非恒定的相似度。
评估相异度:Jaccard距离
d 12 = b + c a + b + c d_{12}=\frac{b+c}{a+b+c}

3 标称变量

标称变量是二元变量的推广,它可以具有多于两个的状态值。必须:红、黄、蓝、绿。(值之间的排列顺序不重要)

4 序数型变量

序数型变量可以使连续的,也可以是离散的。
序数型变量的值之间是有顺序关系的,比如:讲师、副教授、教授。

5 比例标度变量

总是取正的度量值,有一个非线性的标度,近似的遵循指数标度,比如 A e B t   o r   A e B t Ae^{Bt}~or~Ae^{-Bt}
比例标度变量的比值是有意义的。

6 混合类型的变量

现实世界中,数据对象不是被一种类型的度量所描述,而是被多种类型混合的度量所描述。(上面那几种混合起来)

猜你喜欢

转载自blog.csdn.net/Vici__/article/details/105066281