K-MEANS及改进

聚类算法:数据是无标签的,现在我们要对他们进行分类
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
缺点1选初始点时随机初始化,取代价最小的那组
这里的代价是指随机所抽的M个点到M个点中的随机K个点作为重心的距离的和的均值
在这里插入图片描述
在这里插入图片描述
缺点2选K值可以用肘部法则,代价对K的梯度变化剧烈的K,若不存在肘部可以由业务需求或经验决定
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
缺点3用密度来聚类DBSCAN解决
上图解释:P邻域就是以其为圆心的圆;核心对象中Minpoints假设自定为3,则P的邻域有4个点所以P是核心对象;P到M直接密度可达;如果P到M直接密度可达,M到Q直接密度可达则P到Q密度可达;O的S与R都密度可达则R与S密度相连
DBSCAN不需定义一共要设计多少个类(由邻域半径与Minpoints决定),不要求形状,可输入过滤噪声的参数(也是上面两个参数)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
缺点4用mini batch解决,每次迭代不采用所有样本,而是每次等量的采样,然后进行K个重心的更新,每次会抽到不一样的点,且会对重心进行更新

猜你喜欢

转载自blog.csdn.net/cj1064789374/article/details/88002019