模式识别(四)类间距离与准则函数

2.3.2类间(类与类之间)距离测度方法
a.最近距离法:表示两个类中,距离最小的作为两类间的距离。
在这里插入图片描述
例如:
在这里插入图片描述
b.最远距离法:表示两个类中,距离最大的作为两类间的距离。
在这里插入图片描述
例如:
在这里插入图片描述
c.中间距离法:将第p类与第q类合并成新的L类,另一个类k类与这个新的类之间的类间距为,原pq两类的的中点成为新的距离计算点(不考虑每个类中有多少样本点)。
在这里插入图片描述
d.重心距离法:以上的中间距离法中考虑每个类中的样本个数,也就是两个类的重心之间的距离。
在这里插入图片描述
在这里插入图片描述
例如:
在这里插入图片描述
e.平均距离法:两类中任意两点间的距离的平均。
在这里插入图片描述
例如:
在这里插入图片描述
f.类内离差平方和:适合团状分布。
在这里插入图片描述
2.3.3 聚类的准则函数
聚类应用的四个基本方向
a).减少数据:
许多时候,当数据量N很大时,会使数据处理很费力。因此可以使用聚类分析的方法将原数据分为几组可以判断的聚类m(n<<N),每一个类可以当作独立的实体来对待,从这个角度看,数据被压缩了。
b).假说生成:
为了推导出数据性质的一些假说,对数据集进行聚类分析。这里使用聚类作为建立聚类的方法,然后用其他数据集验证这些假说。
c).假说检验:
用聚类分析来验证指定假说的有效性。
例如:考虑这样的假说“大公司在海外投资”。要验证这个假说的正确性,需要对大公司和有代表性的公司按规模、海外活跃度、成功完成项目的能力进行聚类分析。
d).基于分组的预测:
对现有数据进行聚类分析,形成模式的特征,并用特征表示聚类,接下来,对于一个未知模式。就可以用前面的聚类来确定是哪一类。
例如:考虑呗通产病毒感染的病人数据集,首先按聚类分析对其进行分类,然后对新的病人确定他适合的聚类,从而判断其病情。

距离准则函数
判断分类结果好坏的标准:类内距离小,类间距离大。
a).类内距离准则
在这里插入图片描述
为了达到较高的分类效果:使Jw的值取最小,就是Jw趋向于min,这种方法也称为误差平方和准则。
在这里插入图片描述
b) 类间距离准则
在这里插入图片描述
c).基于类内距离类间距离的准则函数
目标:使聚类结果的类内距离小,类间距离大,也就是分类的结果具有更高的区分度。为此可以构造同时反映出类内距离和类间距离的准则函数。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/DOUBLE121PIG/article/details/93911531