数学建模——多元分析(1)——聚类分析

一、聚类分析

1. 概述

  1. 聚类分析(cluster analyses)可作为一种定量方法,从数据分析的角度,给出一个准确、细致的分类工具。

2. 相似性度量

2.1. 样本的相似性度量

1. 重点内容

  1. 核心思想用距离来度量样本点间的相似程度。距离近的样品聚为一类。
    在这里插入图片描述
  2. 在聚类分析中,对于定量变量,常用的是 Minkowski 距离
    在这里插入图片描述
    在这里插入图片描述
  3. 在 Minkowski 距离中,常用的是欧氏距离,它的主要优点是当坐标轴进行正交旋转时,欧氏距离是保持不变的。因此,如果对原坐标系进行平移和旋转变换,则变换后样本点间的距离和变换前完全相同。
  4. 采用 Minkowski 距离时,一定要采用相同量纲的变量。如果变量的量纲不同,测量值变异范围相差悬殊时,建议首先进行数据的标准化处理,然后再计算距离。
  5. 在采用 Minkowski 距离时,还应尽可能地避免变量的多重相关性。多重相关性(multicollinearity)所造成的信息重叠,会片面强调某些变量的重要性。
  6. 由于 Minkowski 距离的这些缺点,一种改进的距离就是马氏距离,定义如下:
    在这里插入图片描述
    其中x, y为来自p 维总体Z的样本观测值,Σ为Z的协方差矩阵,实际中Σ往往是不知道的,常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的,故不受量纲的影响
  7. 此外,还可采用样本相关系数夹角余弦和其它关联性度量作为相似性度量。

2. 示例

下图是数据的一般格式
在这里插入图片描述
则样品与样品之间的常用距离(样品i与样品j)
在这里插入图片描述
示例计算:
在这里插入图片描述
指标与指标之间的常用“距离”(指标i与指标j)
在这里插入图片描述
示例计算
在这里插入图片描述

2.2. 类与类间的相似性度量

1. 度量方法

  1. 由一个样品组成的类是最基本的类。如果每一类都由一个样品组成,那么样品间的距离就是类间距离
  2. 如果某一类包含不止一个样品,那么就要确定类间距离,类间距离是基于样品间距离定义的。如果有两个样本类G1和G2,我们可以用下面的一系列方法度量它们间的距离:
    1. 最短距离法(nearest neighbor or single linkage method)
      在这里插入图片描述
      它的直观意义为两个类中最近两点间的距离

    2. 最长距离法(farthest neighbor or complete linkage method)

      在这里插入图片描述
      它的直观意义为两个类中最远两点间的距离

    3. 重心法(centroid method)
      在这里插入图片描述
      其中 x \overline{x} y \overline{y} 分别为G

    4. 类平均法(group average method)
      在这里插入图片描述
      它等于G1 ,G2中两两样本点距离的平均,式中n1 , n2 分别为G1 ,G2中的样本点个数。

    5. 离差平方和法(sum of squares method)
      在这里插入图片描述
      事实上,若 G1 ,G2内部点与点距离很小,则它们能很好地各自聚为一类,并且这两类又能够充分分离(即D12很大),这时必然有D = D12 − D1 − D2 很大。因此,按定义可以认为,两类G1 ,G2之间的距离很大。

2. 更形象化地表达

在这里插入图片描述

2.2. 系统聚类法

1. 概述

系统聚类法是聚类分析方法中常用的一种方法。它的优点在于可以指出由粗到细的多种分类情况,典型的系统聚类结果可由一个聚类图展示出来。
在这里插入图片描述
如何才能生成这样的聚类图呢?,其步骤如下:
在这里插入图片描述
显而易见,这种系统归类过程与计算类和类之间的距离有关,采用不同的距离定义,有可能得出不同的聚类结果

2.最短距离法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
有了聚类图,就可以按要求进行分类。可以看出,在这五个推销员中w5的工作成绩最佳,w3w4的工作成绩最好,而w1w2的工作成绩较差。

发布了16 篇原创文章 · 获赞 28 · 访问量 8917

猜你喜欢

转载自blog.csdn.net/NoBuggie/article/details/103206892