K-means原理
聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特征x。 K-means也是聚类算法中最简单的一种。在聚类问题中,给我们的训练样本是
,每一个
,没有
。K-means算法是将样本聚类成
个簇(cluster),具体算法如下:
1. 随机选取k个聚类中心
2. 重复下面过程直至收敛{
对于每个样例
,计算属于哪个类
对于每一个类
,将质心更新为该类所有样例的重心
}
是我们事先给定的聚类数,
代表样例
与
个类中距离最近的那个类,
的值是1到k中的一个。质心
代表我们对属于同一个类的样本中心点的猜测,拿星团模型来解释就是要将所有的星星聚成k个星团,首先随机选取k个宇宙中的点(或者k个星星)作为k个星团的质心,然后第一步对于每一个星星计算其到k个质心中每一个的距离,然后选取距离最近的那个星团作为
,这样经过第一步每一个星星都有了所属的星团;第二步对于每一个星团,重新计算它的质心
(对里面所有的星星坐标求平均)。重复迭代第一步和第二步直到质心不变或者变化很小。下图展示了对
个样本点进行K-means聚类的效果,这里
取2。
K-means面对的第一个问题是如何保证收敛,前面的算法中强调结束条件就是收敛,可以证明的是K-means完全可以保证收敛性。下面我们定性的描述一下收敛性,我们定义畸变函数(distortion function)如下:
K-means的优点
- 算法能根据较少的已知聚类样本的类别对树进行剪枝确定部分样本的分类;
- 为克服少量样本聚类的不准确性,该算法本身具有优化迭代功能,在已经求得的聚类上再次进行迭代修正剪枝确定部分样本的聚类,优化了初始监督学习样本分类不合理的地方;
- 由于只是针对部分小样本可以降低总的聚类时间复杂度。
K-means的缺点
- 对于离群点和孤立点敏感;
- k值选择;
- 初始聚类中心的选择;
- 只能发现球状簇。