기계 학습 - 클러스터링 - 밀도 클러스터링 알고리즘 노트

밀도 클러스터링 : 1.DBSCAN 2 알고리즘 최대 밀도

이데올로기 밀도 클러스터링 방법을 안내하는 한 임계 값보다 샘플 포인트의 높은 밀도, 다음 가장 가까운 클러스터에 샘플을 추가 한 것입니다.

거리 기반 클러스터링 알고리즘 "라운드"(볼록)에서 발견되는 단점을 극복 할 수있는 이러한 알고리즘은 임의의 형상의 클러스터에서 발견하고, 잡음 데이터에 민감하지 않은 수있다. 그러나, 밀도가 큰 부 계산량, 계산량을 줄이기 위해 공간 인덱스에 대한 필요성을 계산하는 단계를 포함한다.

DBSCAN (노이즈 애플리케이션 밀도 공간 기반 클러스터링)

밀도에 기초하여 더욱 대표적인 클러스터링 알고리즘. 그리고 분할하고, 계층 적 클러스터링 방법, 최대 세트 포인트가 연결되는 클러스터의 밀도로 정의되며, 이는 클러스터의 충분히 높은 밀도의 영역 분할을 할 수 있고, "노이즈"클러스터링 임의의 형상 데이터를 발견 할 수있다 .

  ε- 이웃 개체 : 주어진 반경 ε 내의 오브젝트 영역.

  핵심 목적은 : 소정의 숫자 m, ε-이웃 객체는 적어도 m 오브젝트를 포함하는 경우를 들어, 객체는 객체 코어라고한다.

 직접 밀도 최대 : p는 Q의 ε- 지역이며, q는 핵심 오브젝트 인 경우, D는, 우리가 객체 p와 q의 객체가 직접 밀도에 도달 할 수 있는지 말할 개체의 집합을 감안할 때.

도 ε = 1cm, m = 5, Q는 핵심 목적은 Q에 물 (P)의 목적은 직접 밀도 도달.

  

  밀도까지 : 오브젝트 P 체인이있는 경우 . (1) P (2) ... P의 N- , P . 1 = Q, P N- = P, P에 I ∈D (1≤i ≤n) P I +1 파이 ε는 약 m과 직접 밀도에 도달하고, 오브젝트 P는 I가 +. 1 ε q 및 m에있는 대상물로부터는 밀도에 도달한다.

 접속 밀도 : 오브젝트 D의 O, P 및 Q에서의 객체의 수집을 ε의 출력과 m의 개체 밀도 연결할 수 있도록있다이면 ε p와 q 및 m의 목적은 밀도에 접속된다.

 클러스터 : 클러스터 밀도는 최대 밀도의 접속 객체들의 집합에 기초한다.

 소음 : 소음이라고하는 객체의 클러스터에 포함되지

  

  DBSCAN 알고리즘 과정 :

 객체 m 이상 포함 ε- 점 P의 근방은, p는 코어 객체로 새로운 클러스터를 생성하는 경우;

 찾아 코어 대상체 직접 도달 밀도 병합;

 새로운 점은 클러스터 알고리즘의 끝을 업데이트 할 수 없습니다.

  위의 알고리즘에서 :

 각 클러스터는 적어도 핵심 개체 포함;

 비 핵심 목적은 클러스터의 일부가 될 수 있고, 클러스터 에지 (에지)을 구성;

 객체가 포함되어 너무 작은 클러스터는 노이즈로 간주됩니다

최대 밀도 클러스터링

최대 농도 클러스터링 알고리즘은 간단한 우아한 클러스터링 클러스터 유형은 다양한 형태로 발견 될 수 있으며, 파라미터를 쉽게 결정할 수있다.

정의 : 로컬 밀도 피페 I 컷오프 :

D C는 까지는 컷 피페이다 I 즉 피사체까지의 거리 D의 I 미만 C의 오브젝트의 수. 알고리즘은 D 그래서 ρi의 상대 값에만 민감하므로 C는 소리를 선택 D를 선택하는 것이 좋습니다 연습이다 C , 모든 점 등 각 지점의 이웃의 평균 인 것을 1 % -2 %를

    가우스 커널 유사성 :

        

   K 이웃 의미 :

  

정의 : 높은 밀도 지방 점 거리 [델타] I

      

물체의 모든 상기 목적 밀도 I에있어서, 최근 접 거리, 즉 밀도가 높은 지역 점 거리에 물체 나.
. 1 오브젝트의 최대 밀도는 게르마늄 δ를 제공 I는 = 최대 (D 용 의 IJ는 () : 무한대의 문제점이있다).
2. 로컬 또는 글로벌 최대 밀도 점을 사람들은 보통 높은 지역의 밀도 점 거리보다 훨씬 더 큰 것이다.

인식 클러스터 센터

1) 큰 로컬 밀도 ρi와 고밀도 점 거리 ΔI의 많은 이러한 클러스터의 중심으로 간주되고
, 작은 점이 특이하다 ρi 2) 고밀도 큰 거리 ΔI하지만 로컬 밀도
 후 클러스터 중심을 결정 가장 가까운 공지 클러스터 분류의 중심의 거리에 따라 다른 포인트
 주 : 상기 방법은 농도 - 도달에 따라 분류 될 수있다.

결정도 결정 그래프 DensityPeak

왼쪽은 가로 좌표는 좌표도 꾸몄다로 결정 Δ 할 수있는 권리이기 때문에 ρ, 모든 점의 2 차원 공간에 배포됩니다. 1 개 내지 10 개의 지점 ρ, 알 수있는 과 [델타] 클러스터의 중심점과 같이 크다. 26,27,28 3 점 [델타] I가 비교적 크지 만 피페 I가 작다는 점 이상이다.

헤비 인식 테두리와 소음

1) 클러스터 분석에서 종종 필요 클러스터에 할당되는 각 점의 신뢰성을 결정한다 :

2)이 알고리즘에서, 각각의 클러스터가) 제 경계 영역 (경계 영역으로서 정의 될 수있다, 즉 클러스터이지만 다른 클러스터의 거리 D 점 미만 할당 C의 세트 포인트. 이 로컬 밀도 피페되도록 그리고, 각 클러스터에 대한 최대 밀도 지역 경계 영역의 점을 찾아 H가 .

3) 밀도가 로컬 클러스터 모두보다 큰 피페 H의 포인트 클러스터의 코어 (즉, 점은 큰 클러스터의 신뢰성에 할당)의 일부로 간주되고, 나머지 점 (클래스 클러스터 할로로 간주 할로), 즉 잡음이 고려 될 수있다.

 참고 : 여전히 관련이있을 것입니다 포함 된 EM 알고리즘의 신뢰성 문제를 들어.

선호도 전파 : AP 클러스터링 알고리즘은 이 문서에서 좀 걸릴 수 있습니다.

추천

출처www.cnblogs.com/yang901112/p/11615631.html