第九章 聚类 Clustering

第九章 聚类

(Unsupervised Learning)无监督学习:
    训练样本的标记信息是未知的,通过对无标记数据的训练来找出数据内部所存在的规律以及性质.为进一步的数据分析打下基础

1.知识点

聚类过程中会自动的形成簇结构,但是算法对簇(cluster)没有概念,这是在运算过程中自己出现的聚类现象,这个簇的名字需要自己来进行定义

聚类可作为一个单独的过程来完成,用于去寻找数据的内部性质及分布结构,当然也可以作为分类等其他学习任务的前驱过程.

当对数据的类不是很明确的时候,可以将数据先进行聚类,根据聚类结果将每个簇定义为一个类,再基于这些类进行训练分类模型

性能度量(performance measure)

性能度量也叫聚类的”有效性指标(validity index)”
物以类聚:
    簇内相似度高,簇间相似度低.

%E9%80%89%E5%8C%BA_001.png

%E9%80%89%E5%8C%BA_002.png

距离计算(distance measure)

%E9%80%89%E5%8C%BA_003.png

闵科夫斯基距离,这是一种最常用的距离
可以变形成欧式距离和曼哈顿距离(典型的街区距离公式)  这都是经典的距离公式.

一个小插曲:公式在推导过程中经常会强调不失一般性,这个"不失一般性"是什么意思?

原型聚类:第一步原型的初始化,第二步对根据不同的公式进行迭代优化更新求解.

K-means算法,根据最小平方差公式(最小二乘法)来进行迭代优化

扫描二维码关注公众号,回复: 1117540 查看本文章
递归&迭代

简单来说:递归就是函数不断的调用自己,
     迭代就是函数A不断调用函数B的过程

知识点有点复杂,相对知识较多,还没有完整的理论体系,先不着急学习.

猜你喜欢

转载自blog.csdn.net/qq_37904945/article/details/80338610
今日推荐