学习：用scikit-learn学习K-Means聚类 - 代码天地

学习：用scikit-learn学习K-Means聚类

其他 2019-07-05 11:41:56 阅读次数: 0

在K-Means聚类算法原理中，我们对K-Means的原理做了总结，本文我们就来讨论用scikit-learn来学习K-Means聚类。重点讲述如何选择合适的k值。

1. K-Means类概述

在scikit-learn中，包括两个K-Means的算法，一个是传统的K-Means算法，对应的类是KMeans。另一个是基于采样的Mini Batch K-Means算法，对应的类是MiniBatchKMeans。一般来说，使用K-Means的算法调参是比较简单的。

用KMeans类的话，一般要注意的仅仅就是k值的选择，即参数n_clusters；如果是用MiniBatchKMeans的话，也仅仅多了需要注意调参的参数batch_size，即我们的Mini Batch的大小。

当然KMeans类和MiniBatchKMeans类可以选择的参数还有不少，但是大多不需要怎么去调参。下面我们就看看KMeans类和MiniBatchKMeans类的一些主要参数。

2. KMeans类主要参数

KMeans类的主要参数有：
1 ) n_clusters: 即我们的k值，一般需要多试一些值以获得较好的聚类效果。k值好坏的评估标准在下面会讲。

2）max_iter：最大的迭代次数，一般如果是凸数据集的话可以不管这个值，如果数据集不是凸的，可能很难收敛，此时可以指定最大的迭代次数让算法可以及时退出循环。

3）n_init：用不同的初始化质心运行算法的次数。由于K-Means是结果受初始值影响的局部最优的迭代算法，因此需要多跑几次以选择一个较好的聚类效果，默认是10，一般不需要改。如果你的k值较大，则可以适当增大这个值。

4）init：即初始值选择的方式，可以为完全随机选择’random’,优化过的’k-means++‘或者自己指定初始化的k个质心。一般建议使用默认的’k-means++’。

5）algorithm：有“auto”, “full” or “elkan”三种选择。“full"就是我们传统的K-Means算法， “elkan”是我们原理篇讲的elkan K-Means算法。默认的"auto"则会根据数据值是否是稀疏的，来决定如何选择"full"和“elkan”。一般数据是稠密的，那么就是 “elkan”，否则就是"full”。一般来说建议直接用默认的"auto"

3. MiniBatchKMeans类主要参数

猜你喜欢

转载自blog.csdn.net/czp_374/article/details/93664507

学习：用scikit-learn学习K-Means聚类

Python scikit-learn，非监督学习 (没有目标值)，k-means聚类算法，KMeans

scikit-learn之聚类算法之K-Means

用scikit-learn学习DBSCAN聚类

sklearn scikit-learn k-means 聚类算法一维数组聚类 python 二维数组聚类

机器学习： K-means 聚类

K-means 聚类学习

k-means+python︱scikit-learn中的KMeans聚类实现( + MiniBatchKMeans)

scikit-learn 学习谱聚类SpectralClustering

机器学习：K-Means聚类、DBSCAN聚类

机器学习——聚类算法之K-means与K-means++,K-meansⅡ

【SciKit-Learn学习笔记】8：k-均值算法做文本聚类,聚类算法性能评估

机器学习(九)聚类K-means

机器学习之K-Means聚类

【opencv、机器学习】聚类算法——K-means

机器学习之K-means、Canopy聚类

机器学习笔记之K-means聚类

机器学习08：K-Means聚类算法

机器学习--聚类系列--K-means算法

机器学习-无监督聚类K-means

机器学习之聚类算法k-means

机器学习部分：K-means聚类算法

无监督学习——聚类（k-means算法）

Python机器学习应用之k-means聚类

【机器学习】使用K-Means聚类细分客户

机器学习——K-means算法（聚类算法）

机器学习算法--K-means聚类

【机器学习】K-means聚类算法初探

机器学习（1）：K-MEANS聚类算法

机器学习--k-means聚类原理

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)