kmeans和kmeans++
参数:k(聚类个数)
- 随机选取K个中心点。(KMEANS++会在选取一个中心点后更倾向于去选择离选定中心点更远的)
- 计算其他点离哪个中心点更近,就算做哪一簇。
- 计算每个新簇的新中心点(取平均)。
- 重新调整除中心点外的归属情况。
- 直到每次分簇情况相同或者中心点收敛。
DBSCAN
参数:MINPTS,r
- 某个点要成为中心点,他需要有多少个在以这个点为圆心,r为半径的圆内。
- 随机选一个点。
- 若点满足上述要求,可以作为中心点,标记。若不满足,标记为噪声点。
- 对中心点邻域(上述中心点为圆心的圆)的任何点,若也满足成为中心点的点,也标记,加入中心点邻域内。
- 直到所有的点都被标记。
层次聚类
参数:簇的个数K
- 把数据集中的每个数据看作一个簇。
- 每次找到距离相近的两个簇合并为一个。
- 直到合并数量达到参数K。