简介
DBSCAN是属于机器学习里面的非监督学习,与 k-means一样是一种聚类算法。不过k-means算法是基于距离的聚类算法,基于距离的聚类算法的聚类结果是球状的簇,当数据中的聚类结果是非球状结构时,基于距离的聚类算法的效果并不好,然而,基于密度的聚类算法从样本的密度角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇以获得最终的聚类结果,它可以发现任意形状的簇。
DBSCAN (density-based spatial clustering of applications with noise),即“具有噪声的基于密度的空间聚类应用”。是一种典型的基于密度的聚类算法。
DBSCAN算法流程
# encoding=utf8
import numpy as np
import random
from copy import copy
from collections import deque
# 寻找eps邻域内的点
def findNeighbor(j, X, eps):
return {
p for p in range(X.shape[0]) if np.linalg.norm(X[j] - X[p]) <= eps}
# dbscan算法
def dbscan(X, eps, min_Pts):
"""
input:X(ndarray):样本数据
eps(float):eps邻域半径
min_Pts(int):eps邻域内最少点个数
output:cluster(list):聚类结果
"""
# ********* Begin *********#
# 初始化核心对象集合
core_objects = {
i for i in range(len(X)) if len(findNeighbor(i, X, eps)) >= min_Pts}
# 初始化聚类簇数
k = 0
# 初始化未访问的样本集合
not_visited = set(range(len(X)))
# 初始化聚类结果
cluster = np.zeros(len(X))
while len(core_objects) != 0:
old_not_visited = copy(not_visited)
# 初始化聚类簇队列
o = random.choice(list(core_objects))
queue = deque()
queue.append(o)
not_visited.remove(o)
while len(queue) != 0:
q = queue.popleft()
neighbor_list = findNeighbor(q, X, eps)
if len(neighbor_list) >= min_Pts:
# 寻找在邻域中并没被访问过的点
delta = neighbor_list & not_visited
for element in delta:
queue.append(element)
not_visited.remove(element)
k += 1
this_class = old_not_visited - not_visited
cluster[list(this_class)] = k
core_objects = core_objects - this_class
# ********* End *********#
return cluster
sklearn中的DBSCAN
# encoding=utf8
from sklearn.cluster import DBSCAN
def data_cluster(data):
"""
input: data(ndarray) :数据
output: result(ndarray):聚类结果
"""
# ********* Begin *********#
dbscan = DBSCAN(eps=0.5, min_samples=10)
result = dbscan.fit_predict(data)
return result
# ********* End *********#
感谢大家的支持!!!!!!!!!!!!!!!!