聚类结果评价指标及python3代码实现

本博客为博主原创，如需转载，请附上本文链接http://blog.csdn.net/JasonLeeeeeeeeee/article/details/79027518，谢谢

在机器学习、数据挖掘领域中，聚类算法有很多中，比方说K-Means、DBSCAN等等，这些也都是入门级的简单算法。聚类算法属于无监督学习，即训练样本的标记信息是未知的，目标是通过对这些无标记数据根据内在的性质及规律区分开不同的类别，或者说是将相似的数据归为一类，这为下一步的数据分析提供基础。其中K-Means是采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大；DBSCAN是基于密度的聚类，该算法假设聚类结构能通过样本分布的紧密程度确定，是从密度的角度来考察样本之间的可链接性，并基于可连接的样本来扩展簇类来达到最终的聚类效果。
然而，使用这些聚类算法后，对聚类结果的优劣程度还是需要进行评价。本博客将从以下两个评价方法展开讨论：

欧式距离
轮廓系数

聚类结果评价指标还有互信息、兰德指数等，由于博主应用的是欧式距离和轮廓系数，所以本博客会对这两个评价指标做详细的解释及python3实现代码，望谅解。

欧式距离

欧几里得度量（euclidean metric）（也称欧氏距离）是一个通常采用的距离定义，指在m维空间中两个点之间的真实距离，或者向量的自然长度（即该点到原点的距离）。在二维和三维空间中的欧氏距离就是两点之间的实际距离。 —— [ 百度百科 ]

已知A，B两点，求A，B两点间的距离，公式如下：

ρ (A, B) = \sqrt{\sum (a_{i} - b_{i})^{2}} (i = 1, 2, . . ., n)

$\rho(A,B)=\sqrt{\sum(a_i-b_i)^2}(i=1,2,...,n)$

K-Means算法中的所说的距离就是欧式距离，同样博主认为可以将每标签类中成员至其质心的距离总和可以作为loss成本值来评价聚类结果的优劣。

python代码如下：

from sklearn.cluster import KMeans
import numpy as np
import re

file = open("输入数据文件", 'r', encoding='UTF-8')

instation = []
temp = []
for line in file:
    x = []
    split = re.split(r',', line) #逗号正则切分
    station = split[0]
    for i in range(0, len(split)-2):
        x.append(float(split[i+1]))
    instation.append(line.strip())
    temp.append(x)
X = np.array(temp)
'''
以上是博主根据自己的情况所写，各位可根据自己的实际情况修改，目的是将聚类数据加载至X中。
由于博主刚开始学习python，有些不足之处，请谅解
下面是用的K-Means++算法来实现，并且将样本分了2至10类，每次都计算一个loss并输出，然后根据肘部法则可以进一步确定K的取值
'''
for n in range(2, 11):
    kmeans = KMeans(n_clusters=n, init='k-means++', random_state=0).fit(X)
    loss = 0
    for i in range(X.shape[0]):
        line = instation[i] + "," + str(kmeans.labels_[i]) + '\n'
        loss += np.sqrt(np.sum(np.square(X[i] - kmeans.cluster_centers_[kmeans.labels_[i]])))
    print(loss)
file.close()

轮廓系数

轮廓系数（Silhouette Coefficient），是聚类效果好坏的一种评价方式。最早由 Peter J. Rousseeuw 在 1986 提出。它结合内聚度和分离度两种因素。可以用来在相同原始数据的基础上用来评价不同算法、或者算法不同运行方式对聚类结果所产生的影响。 —— [ 百度百科 ]

K-Means算法中，将待分类数据分为了k个簇。对于簇中的每个向量，都要分别计算它们的轮廓系数。
对于其中的一个点 i 来说：

a_{i} = a v e r a g e (i 向 量 到 所 有 它 数 据 的 簇 中 其 它 点 的 距 离) ， 即 i 向 量 到 同 一 簇 内 其 他 点 不 相 似 程 度 的 平 均 值

$a_i=average(i向量到所有它数据的簇中其它点的距离)，即i向量到同一簇内其他点不相似程度的平均值$

b_{i} = m i n (i 向 量 到 所 有 非 本 身 所 在 簇 的 点 的 平 均 距 离) ， 即 i 向 量 到 其 他 簇 的 平 均 不 相 似 程 度 的 最 小 值

$b_i = min(i向量到所有非本身所在簇的点的平均距离)，即i向量到其他簇的平均不相似程度的最小值$
则 i 向量轮廓系数就为：

S_{i} = \frac{b_{i} - a_{i}}{max (a_{i}, b_{i})}

$S_i = \frac{b_i-a_i}{\max(a_i,b_i)}$
根据上式可以看出S(i)越接近1，说明样本i的聚类越合理；同理，越接近-1，说明样本i聚类到另外的簇中更合理。
将所有样本点的轮廓系数求和取平均，就是该聚类结果的总的轮廓系数。

python实现代码如下：

from sklearn.cluster import KMeans
import numpy as np
from sklearn import metrics
import re

file = open("输入文件", 'r', encoding='UTF-8')

instation = []
temp = []
for line in file:
    x = []
    split = re.split(r',', line)
    station = split[0]
    for i in range(0, len(split)-2):
        x.append(float(split[i+1]))
    instation.append(line.strip())
    temp.append(x)
X = np.array(temp)
'''
同样，以上代码是加载样本数据至X
以下代码是将样本分2至10类，并分别计算各自的轮廓系数，同样可以根据肘部法则来决定k的取值
'''
for n in range(2, 11):
    kmeans = KMeans(n_clusters=n, init='k-means++', random_state=0).fit(X)
    #s = 0
    for i in range(X.shape[0]):
        line = instation[i] + "," + str(kmeans.labels_[i]) + '\n'
        loss += np.sqrt(np.sum(np.square(X[i] - kmeans.cluster_centers_[kmeans.labels_[i]])))
        '''
        刚开始，博主不知sklearn中有现成的接口可以调用，于是自己就写了“源码”。毕竟也是自己的心血，也放出来吧，代码如下，有不到之处望谅解
        ai = 0
        bi = 9999999999999999
        for j in range(n): #计算每个数据的各个标签的距离
            num = 0
            aaa = 0
            for k in range(X.shape[0]):
                if kmeans.labels_[k] == j:
                    num += 1
                    aaa += np.sqrt(np.sum(np.square(X[i] - X[k])))
            if j == kmeans.labels_[i]:
                ai = aaa/num
            elif bi > aaa/num:
                bi = aaa/num
        if bi > ai:
            s += (1 - ai/bi)
        elif bi == ai:
            s += 0
        else:
            s += (bi/ai - 1)
    print(s/X.shape[0]) 
    '''
    print(metrics.silhouette_score(X, kmeans.labels_, metric='euclidean'))
file.close()

对于上述代码中silhouette_score各参数有不清楚的，可以移步至官网链接进行详细阅读。

评价

欧式距离是博主自己想到的一个loss成本评价指标，至少在网上搜到评价指标中不包括欧式，不知道是因为欧式太简单，还是说不适合作为一种评价方式，有考虑不到之处的请指教，先谢过。
对于评价指标博主之前也提到说不止这两个指标，还有互信息、兰德指数等，但对于这些指标博主没有实际应用，理解不是很深，所以不敢妄自评价。
由于博主也是刚开始写博客，有不到之处，或者需要改进的地方，希望各位看官指出，再次谢过。

【机器学习】聚类结果评价指标及python3代码实现

聚类结果评价指标及python3代码实现

欧式距离

轮廓系数

评价

猜你喜欢