[클러스터링 모델 ①] k-means 클러스터링 알고리즘

많은 양의 데이터를 연구 할 때 어떤 데이터 집합이 상대적으로 가까운 지 (예 : 상대적으로 비슷한 소비 습관을 가진 도시)이 다중 분류 알고리즘을 사용할 수 있습니다. Qingfeng의 디지털 시뮬레이션 튜토리얼을 본 후 저자는 다음 사항을 요약합니다.

k- 평균 연산 프로세스

  1. 분류 수 k를 선택하고 알고리즘의 반복 횟수를 설정합니다.
  2. 초기 k 군집 중심 선택
  3. 모든 데이터를 거리에 따라 k 개의 클러스터 중심으로 나눕니다.
  4. 클러스터 중심의 위치 조정 (그 아래에있는 데이터의 중심으로 조정)
  5. 중심 위치가 더 이상 변경되지 않거나 반복 횟수에 도달 할 때까지 위의 3-4 단계를 반복합니다
    여기에 사진 설명 삽입
    . 실제 모델링 논문에서 알고리즘 흐름 설명은 중복 반복을 단순화하고 중복 검사를 방지하기 위해 순서도 사용을 권장합니다.

k- 평균의 장점과 단점

이점

  1. 간단하고 빠름
  2. 대용량 데이터 세트를 효율적으로 처리

불리

  1. 사전에 주어진 클래스 k의 수는 사용자가 완전히 지정하여 너무 주관적이고 신뢰할 수있는 표준이 부족합니다.
  2. 초기 값에 민감
  3. 특이 치 민감도

k- 평균 ++ : 개선 된 k- 평균 알고리즘

위의 단점을 최대한 피하기 위해 k-means ++ 알고리즘을 제안합니다.

기본 원리

초기 군집 중심을 선택할 때 그 사이의 거리를 최대한 크게 만드십시오.

기본 원칙의 실현

개선은 클러스터 센터의 선택에만 있으며 선택 방법은 다음과 같습니다.

  1. 초기 클러스터 센터를 무작위로 선택
  2. 각 데이터 포인트에서 첫 번째 중심까지의 거리를 계산하고이를 가중치로 사용하여 다음 클러스터 중심을 계산합니다. [룰렛 방법]
  3. k 개의 군집 중심이 선택 될 때까지 두 번째 단계를 반복합니다.

왜 이룰 수 있습니까?

두 번째 단계에서 다음 군집 중심을 선택하면 현재 데이터 점과 첫 번째 중심 사이의 거리가 멀수록 가중치가 커지고이 데이터 점 근처가 두 번째 군집 중심으로 선택 될 가능성이 높아집니다. 즉, 두 번째 클러스터 센터는 첫 번째 클러스터에서 가능한 한 멀리 떨어져 있습니다!

평균 클러스터링 알고리즘에 대한 두 가지 논의

  1. 데이터를 k 개의 범주로 나누고 싶습니다.이 k를 결정하는 방법은 무엇입니까?

    일반적으로 주제에 따라 판단되며, 여러 카테고리로 나뉘면 더 잘 설명되며 여러 카테고리로 나뉩니다.

    예를 들어, "유사한 소비 습관이있는 도시"라는 질문의 경우 k = 2 또는 3을 선택하는 것이 더 적절합니다. k = 2 인 경우 설명은 첫 번째 유형의 도시 소비 수준이 더 높고 두 번째 유형의 소비 수준이 더 낮을 수 있습니다. k = 3 일 때 각 도시의 소비 수준은 높음, 중간, 낮음의 세 가지 수준으로 나뉩니다.

  2. 데이터 차원이 일치하지 않으면 어떻게해야합니까?

    예를 들어, 사물의 특성을 설명하는 데이터 세트를 발견했습니다. 데이터 차원 중 하나는 길이 (m)이고 다른 하나는 가중치 (t)입니다. 둘의 차이가 너무 크거나 직접 계산 된 데이터가 무의미한?

    공식 X i − X 평균 X 표준 편차 \ frac {X_i-X_ {average}} {X_ {표준 편차}}를 사용합니다.엑스표준 불량엑스나는X레벨 데이터를 표준화하십시오. 그런 다음 표준화 된 데이터를 사용하여 클러스터링합니다.

추천

출처blog.csdn.net/weixin_44559752/article/details/107847818