【数据分析】数据预处理—最小-最大规范化、z-score规范化、小数定标规范化

数据预处理

数据变换

  • 数据变换的目的是将数据转换成适合分析建模的形式
    • 前提条件:尽量不改变原始数据的规律
    • 数据规范化
      • 最小-最大规范化
      • z-score规范化
      • 小数定标规范化
    • 数据离散化
      • 非监督离散化
      • 监督离散化
        在这里插入图片描述在这里插入图片描述在这里插入图片描述

数据规范化

  • 数据规范化
    • 目的:将不同数据(属性)按一定规则进行缩放,使它们具有可比性

    • 例如,我们需要考察学生A和学生B的某门课程成绩。A的考试满分是100分(及格60分),B的考试满分是150分(及格90分)。显然,A和B的100分代表着完全不同的含义。在这里插入图片描述

    • 如何用一个同等的标准来比较A与B的成绩数据呢?

最小-最大规范化

  • 对原始数据进行线性变换。把数据A的观察值v从原始的区间[minA,maxA]映射到新区间[new_minA,new_maxA]
    • 0-1规范化又称为归一化在这里插入图片描述
    • 数理依据:在这里插入图片描述
    • 例:假设某属性规范化前的取值区间为[-100,100],规范化后的取值区间为[0,1],采用最小-最大规范化 66,得在这里插入图片描述
  • 假设A的课程成绩为70分(0-100分),B的课程成绩为110分(0-150分),采用最小-最大规范化来比较A和B的成绩在这里插入图片描述用最小-最大规范化后得出B的成绩更好

z-score规范化

  • 最大最小值未知,或者离群点影响较大时,假设数据服从正态分布
    • 某一原始数据(v)与原始均值的差再除以标准差,可以衡量某数据在分布中的相对位置在这里插入图片描述
    • 假设某属性的平均值、标准差分别为80、25,用z-score规范化 66在这里插入图片描述在这里插入图片描述
  • 例:假设学生的成绩分布符合正态分布,某素质课考试的平均分为73分,标准差为7分,A得78分;实践课考试的平均分为80分,标准差为6.5分,A得83分。那么A的哪一门考试成绩比较好?在这里插入图片描述采用z-score规范化得出A的素质课成绩要优于实践课成绩

小数定标规范化

  • 通过移动小数点的位置来进行规范化。小数点移动多少位取决于属性A的取值中的最大绝对值。在这里插入图片描述
  • 比如属性A的取值范围是-999到88,那么最大绝对值为999,小数点就会移动3位,即新数值=原数值/1000。那么A的取值范围就被规范为-0.999到0.088。

小结

  • 在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_56462041/article/details/129706007
今日推荐