K-means聚类算法简介
举个栗子
图一有ABCDE这五个点。
我们先随机选择两个点作为我们的初始聚类中心(簇中心点),标记为红点和黄点。
开始第一次聚类。对于所有点分别计算其到红点和黄点的距离,我们发现AB点到红点距离更近,而CDE三个点到黄点的距离更近。于是,AB为一簇,CDE为一簇。然后对于这两簇,分别计算簇内各点的均值,标记为新的红点和黄点(图三)。
开始第二次聚类。我们发现ABC点到红点距离更近,而DE点到黄点的距离更近。于是,ABC为一簇,DE为一簇。对于这两簇,分别计算簇内各点的均值,标记为新的红点和黄点(图五)。
开始第三次聚类。我们发现仍然是ABC为一簇,DE为一簇。计算新的簇中心点,发现与第二次聚类中心点一致。
结束。
sklean.cluster.KMeans方法
form sklearn.cluster import KMeans
import numpy as np
km = KMeans(n_clusters=3) # 分成三类
label = km.fit_predict(cityData) # cityData由31个城市的8个数据组成的list
expenses = np.sum(km.cluster_center_, axis=1) # 聚类中心点的数值(每一簇点各个属性的均值)加和
KMeans方法参数