K-수단 클러스터링

감독 레이블없이, 오직 X 특성 값, 아니 y를 예측하는 방법은 옳고 당신이 있음을 증명하는 잘못된 방법으로, 이러한 데이터 세트, 우리가 무엇을 할 수가 그것입니다 없다, 없다? 자율 기계 학습입니다. 클러스터링 알고리즘은 일반 또는 차원 감소이다. 클러스터링은 무엇? 데이터 마이닝은, 예를 들어, 사용자가 분류 될 수 있으며, 샘플 데이터 세트를 분할하는 방법을 서로 다른 마케팅 전략을 탐구 도움, 유사한 데이터 분류에 의한 중앙 집중식 규칙의 존재이다. 클러스터링은 매우 알고리즘에 포함되어 있습니다.

 

클러스터링의 기본적인 아이디어는 다음과 같이이 그룹의 사람들처럼 끈다. 샘플들 사이의 유사도를 산출하는 특징.

 

클러스터링을 K는-의미 :

1 단계 : 하이퍼 파라미터 (k)를 결정은, k는 몇 종류의 샘플을 수집하는 것이다.

단계 : 모든 샘플에서, 초기 클러스터 센터와 같은 세 가지 점의 무작위 선택.

세 번째 단계 : 각 지점과 세 개의 센터 포인트의 세 개의 센터 포인트 순차 계산 이외의 거리. 그런 다음 가장 가까운 샘플 포인트에서 중심점을 찾을 수 있습니다.

넷째 호는 모든 점은 가장 가까운 클러스터 중심점으로 구분 될 것이다 이동을 나타냅니다.

5 단계 : 모든 샘플이 k 개의 클래스로 나누어, 데이터 K 힙은 k 개의 클러스터 중심을 계산합니다. 예를 들면 :

여섯 단계 : 새 클러스터 센터 K를 생성, 다시 호 3-5 반복이 새로운 초점 케이.

일곱 HO : 종료 조건 (a) 클러스터링 프로세스를 반복한다, 모든 샘플 포인트의 분류 결과는 변경되지 않고, (b), 또는 사용자가 설정 한 최대 반복 수, 예를 들어 max_iter = 200.

 

원리 - 알고리즘 :

 https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#sklearn.cluster.KMeans 
 
 KMeans (
    n_clusters 용 =. 8, #의 INT는 임의의 클러스터의 개수
    = 'K-수단 ++ "초기화하기 # 대안 초기 중심 메소드
    실행 다른 중심 종자의 수를 사용 n_init = 10, # 알고리즘 k는-의미한다. 관성에 그 결과 최적의 출력 n_init 연속 작동 될 것이다.
    max_iter = 300, 반복 # 최대 개수,이 반복 횟수를 초과하기를 계속하지 않을 경우
    반복을 중지하는 경우에 어떤 크기 TOL = 0.0001, #의 MSE 값을
    precompute_distances 용 = '자동' ,
    자세한 = 0,
    random_state = 없음, 난수 시드 #의
    copy_x = 사실,
    n_jobs = 없음, CPU 코어 번호를 사용하는
    알고리즘 = '자동',
)

모델 평가

여기에 모델이 Kmeans 알고리즘 평가 결과 무엇을, 평가 모델 알고리즘은 다음과 같은 측면을 측정하기 위해 구현

1 클러스터의 중심에 가장 가까운 샘플들의 합 (관성)


# 관성이 :이 개체 모델의 속성입니다 K는-의미는 실제 분류 및 표시가없는 경우 자율 평가 지표이기 때문에, 가장 가까운 클러스터 중심에서 샘플의 합계를 나타내는 값 증거의 작은 더 나은, 더 작은 값입니다 즉 샘플 클래스 사이의 집중된 분포 클래스 내의 작은 거리.

 (2) 프로파일 계수


# 형상 인자 : 그것은 거리를 계산하기 위해 각 샘플에 대해 거리 최근 클러스터의 평균 및 평균 인구를 사용하여, 모든 시료의 평균 계수 프로파일을 계산하는데 사용되며, 그 이외의 관리 대상의 평가 지표이다. (1)의 최대 값은, 최악의 값을 클러스터 겹치는 -1, 0에 가까운 값으로 표현되고, 전형적으로 음의 값이 잘못된 클러스터에 할당 된 샘플을 나타낸다.

 

 https://scikit-learn.org/stable/modules/generated/sklearn.metrics.silhouette_score.html#sklearn.metrics.silhouette_score 
 
최고의 K의 프로파일 배 값, 사실, 매개 변수 조정을 찾을 수 있습니다. 일반적으로 사용되는 방법은 : 2 프로파일 인자.
 

3, CH 지표

 

거리 측정 CH 지표 제곱 기밀성 카테고리의 클러스터 중심의 분리에 의해 해상도 데이터 세트, 각 클래스 CH 지수 산출 점을 측정하기 위해 데이터 세트의 모든 유형의 중심점과 중앙 광장 사이의 거리를 계산하여 기밀성의 비가 얻어. 따라서, CH 큰 더 가깝게 클래스 자체 클래스 간 분산, 즉,보다 나은 클러스터링 결과를 나타낸다. 
 
 

추천

출처www.cnblogs.com/BC10/p/11791334.html