많은 양의 데이터를 연구 할 때 어떤 데이터 집합이 상대적으로 가까운 지 (예 : 상대적으로 비슷한 소비 습관을 가진 도시)이 다중 분류 알고리즘을 사용할 수 있습니다. Qingfeng의 디지털 시뮬레이션 튜토리얼을 본 후 저자는 다음 사항을 요약합니다.
기사 디렉토리
k- 평균 연산 프로세스
- 분류 수 k를 선택하고 알고리즘의 반복 횟수를 설정합니다.
- 초기 k 군집 중심 선택
- 모든 데이터를 거리에 따라 k 개의 클러스터 중심으로 나눕니다.
- 클러스터 중심의 위치 조정 (그 아래에있는 데이터의 중심으로 조정)
- 중심 위치가 더 이상 변경되지 않거나 반복 횟수에 도달 할 때까지 위의 3-4 단계를 반복합니다
. 실제 모델링 논문에서 알고리즘 흐름 설명은 중복 반복을 단순화하고 중복 검사를 방지하기 위해 순서도 사용을 권장합니다.
k- 평균의 장점과 단점
이점
- 간단하고 빠름
- 대용량 데이터 세트를 효율적으로 처리
불리
- 사전에 주어진 클래스 k의 수는 사용자가 완전히 지정하여 너무 주관적이고 신뢰할 수있는 표준이 부족합니다.
- 초기 값에 민감
- 특이 치 민감도
k- 평균 ++ : 개선 된 k- 평균 알고리즘
위의 단점을 최대한 피하기 위해 k-means ++ 알고리즘을 제안합니다.
기본 원리
초기 군집 중심을 선택할 때 그 사이의 거리를 최대한 크게 만드십시오.
기본 원칙의 실현
개선은 클러스터 센터의 선택에만 있으며 선택 방법은 다음과 같습니다.
- 초기 클러스터 센터를 무작위로 선택
- 각 데이터 포인트에서 첫 번째 중심까지의 거리를 계산하고이를 가중치로 사용하여 다음 클러스터 중심을 계산합니다. [룰렛 방법]
- k 개의 군집 중심이 선택 될 때까지 두 번째 단계를 반복합니다.
왜 이룰 수 있습니까?
두 번째 단계에서 다음 군집 중심을 선택하면 현재 데이터 점과 첫 번째 중심 사이의 거리가 멀수록 가중치가 커지고이 데이터 점 근처가 두 번째 군집 중심으로 선택 될 가능성이 높아집니다. 즉, 두 번째 클러스터 센터는 첫 번째 클러스터에서 가능한 한 멀리 떨어져 있습니다!
평균 클러스터링 알고리즘에 대한 두 가지 논의
-
데이터를 k 개의 범주로 나누고 싶습니다.이 k를 결정하는 방법은 무엇입니까?
일반적으로 주제에 따라 판단되며, 여러 카테고리로 나뉘면 더 잘 설명되며 여러 카테고리로 나뉩니다.
예를 들어, "유사한 소비 습관이있는 도시"라는 질문의 경우 k = 2 또는 3을 선택하는 것이 더 적절합니다. k = 2 인 경우 설명은 첫 번째 유형의 도시 소비 수준이 더 높고 두 번째 유형의 소비 수준이 더 낮을 수 있습니다. k = 3 일 때 각 도시의 소비 수준은 높음, 중간, 낮음의 세 가지 수준으로 나뉩니다.
-
데이터 차원이 일치하지 않으면 어떻게해야합니까?
예를 들어, 사물의 특성을 설명하는 데이터 세트를 발견했습니다. 데이터 차원 중 하나는 길이 (m)이고 다른 하나는 가중치 (t)입니다. 둘의 차이가 너무 크거나 직접 계산 된 데이터가 무의미한?
공식 X i − X 평균 X 표준 편차 \ frac {X_i-X_ {average}} {X_ {표준 편차}}를 사용합니다.엑스표준 준 불량엑스나는− X레벨 은데이터를 표준화하십시오. 그런 다음 표준화 된 데이터를 사용하여 클러스터링합니다.