目录
- 区间标度变量
- 二元变量
- 标称变量
- 序数型变量
- 比例标度变量
- 混合类型变量
1 区间标度变量
区间标度变量是一个粗略线性标度的连续度量,一般有单位描述。
数据规范化
有以下几种方法:
- 最小-最大规范化,又称离散标准化,是对原始数据进行线性变换。这种方法保留了原来数据中存在的关系,是消除量纲和数据取值范围影响的最简单方法。
假设将一组数据
x映射到
[a, b]范围里:
x∗=Max−Minx−Min⋅(b−a)+a其中
Min、Max为数据
x的最小值和最大值。当
a=0,b=1时,将数据映射到区间
[0, 1]内:
x∗=Max−Minx−Min
- 小数定标规范化:通过移动属性的小数点位置规范化属性范围,属性A的规范化计算方法为:
x∗=10Tx其中,T的取值约束为:
max(∣Zif∣)<1的最小整数。
目的:将属性值缩到小的特定区间
[−1,1]之间。
- Z-score规范化(最常用):
x∗=(x−μ)/δ其中
μ为均值,
δ为标准差。
对象间相异度
对象间相异度一般来说是基于距离的度量,常见的距离计算公式有:
- 欧几里得距离:
d12=(x1−x2)2+(y1−y2)2
- 曼哈顿距离:
d12=∣x1−x2∣+∣y1−y2∣
- 切比雪夫距离:
d12=max(∣x1−x2∣, ∣y1−y2∣)
- 汉明距离:相同位上字符不同的个数。(例如:aaaa和bbba之间的距离为3)
2 二元变量
计算机中一个二元变量有两种状态:0或1。一个对象可以包含多个二元变量。
对称二元变量
对于两个状态具有同等价值并且携带相同的权重,对称二元变量的相似度称为恒定的相似度。
评估相异度:简单匹配系数:
d12=a+b+c+db+c
非对称二元变量
对于两个状态具有不同等价值并或携带不同的权重,或者说偏爱某个状态,非对称二元变量的相似度称为非恒定的相似度。
评估相异度:Jaccard距离:
d12=a+b+cb+c
3 标称变量
标称变量是二元变量的推广,它可以具有多于两个的状态值。必须:红、黄、蓝、绿。(值之间的排列顺序不重要)
4 序数型变量
序数型变量可以使连续的,也可以是离散的。
序数型变量的值之间是有顺序关系的,比如:讲师、副教授、教授。
5 比例标度变量
总是取正的度量值,有一个非线性的标度,近似的遵循指数标度,比如
AeBt or Ae−Bt。
比例标度变量的比值是有意义的。
6 混合类型的变量
现实世界中,数据对象不是被一种类型的度量所描述,而是被多种类型混合的度量所描述。(上面那几种混合起来)