聚类分析入门(理论)

一,聚类分数是什么?

聚类分析是通过建立一种分类的方法,将一批样本数据(或者变量),按照他们在性质上的亲疏程度在没有前提假设的情况下自动进行分类。

1,一个类就是具有相似性的个体集合,不同类之间具有明确的相似性;

2,在分类中,不需要事先给出一个分类标准,聚类分析能够从样本数据出发,客观地决定分类标准。

二,聚类分析的步骤是什么?

1,选择聚类的变量:依靠理论和经验选择变量

        1)变量应该和聚类分析的目标密切相关,能够反映要分类对象的特征;

        2)变量之间具有明显的差异性,不应该高度相关。

2,计算相似性(因子分析计算),判别亲疏程度。

3,聚类:选定聚类方法,确定形成的类数

4,解释和证实聚类结果

三,常用的聚类方法有哪些呢?

1,系统聚类法:

1)在聚类分析开始,每个样本自成一类

2)按照某种方法度量所有样本之间的亲疏程度,把其中最紧密或最相似的样本首先聚成一个小类。

3)度量样本和小类之间的亲疏程度,并将当前最亲密的样本或小类再聚成一类;

4)度量剩余的样本和小类(小类和小类)间的的亲疏程度,并将当前最紧密的样本再聚成一类;如此反复,直到所有样本聚成一类为止。

2,如何计算样本间的亲疏程度呢?

1)样本和样本:有欧氏距离,平方欧式距离法,马氏距离,Block距离,计算Pearson简单相关系数,Cosine相似系数,卡方统计量等等等。

2)样本和小类(小类和小类):

最短距离法:以当前某个样本和已形成的小类中各个样本距离中的最小值作为当前样本与该小类之间的距离

最长距离,组间平均链锁法(各个类之间的平均距离),组内平均链锁法,重心法,离差平方和法

3,层次聚类法:

1)Q型:对样本数据进行聚类(常用)

2)R型:对变量进行聚类(类似于因子分析)

3)对于它的输出结果我们需要关注什么?

凝聚状态表

第一列:进行到第几步了

第二,第三列:显示这一步中有哪几个样本再参与聚类

第四列:相应的样本距离(小类间距离)

第五,第六列:显示这一步中参与聚类的是样本还是小类(0表示样本,大于0的数字n表示第n步聚成的小类)

第七列:表示本类聚类的结果将在接下来聚类的第几步中用到。

图像解释:

第1步:将4号样本和5号样本聚成一类,他们的欧氏距离为3.606,聚类的结果将在第3步用到

第2步:将1号样本和2号样本聚成一类,他们的欧氏距离为7.071,聚类的结果将在第4步用到

第3步:将3号样本和第一步的结果4(4和5聚类,选其中的4代表结果)聚成一类,他们的欧氏距离为11.031,聚类的结果将在第3步用到

第4步:将第2步的结果1和第3步的结果1聚成一类,他们的欧氏距离为27.288

垂直冰柱图:

从下往上看,第五行有5个x,说明有5类(每个样本是一类),第四行在第5个类和第4类中加了一个x表示,它们聚成一类,这就成了4个类了。同理第三行聚成了3个类......

4)注意:聚类分析选择的变量能否反映所聚类的特征?变量数据是否标准化?

4,快速聚类分析(迭代聚类法)

1)适合大样本情况下

2)需要指定希望聚成几类

3)spss中叫做K-Mean聚类

猜你喜欢

转载自blog.csdn.net/weixin_44841312/article/details/105363501