算法评估:聚类

文中图片来自华为云课堂视频截图https://education.huaweicloud.com/courses/course-v1:HuaweiX+CBUCNXE086+Self-paced/courseware/c2ea05f2357c443eacf554f37aa2e6a7/75a7a0b27849445db209b25109668451/

目录

如何评估聚类算法

相似性计算——如何评估样本之间的差异


如何评估聚类算法

间接法:对使用聚类算法结果的下一应用的指标进行评估

直接法:外部指标(聚类结果和某个参考模型比较,将计算机结果与行业专家划分结果比较),内部指标(类内差异尽可能小,类间差异尽可能大

直接法需要计算类内样本点、类外样本点间的样本差异。

那么样本差异,要如何衡量呢?

样本差异,常借助’相似性‘指标衡量。

相似性计算——如何评估样本之间的差异

簇内样本差异小,簇外样本样本差异大。

使用样本点间的距离衡量样本差异。

在这里,有两种常用距离:

  • 欧式距离:向量的模值
    • 会受指标单位刻度影响,需要先对数据标准化处理eg:min-max [0,1],
    • 欧氏距离越大,差异越大
  • 余弦距离:向量的夹角——兴趣推荐
    • 不受指标刻度的影响
    • 值越大,差异越小

猜你喜欢

转载自blog.csdn.net/lamanchas/article/details/121646169