기계 학습 : EM 알고리즘

EM 알고리즘

추정의 모든 종류의

최대 우도 추정

최우 추정, 최우 추정, 즉, 공지 된 샘플의 결과를 사용하여 연산 처리의 파라미터 원인 대부분 역방향 추력 (최대 가능성) 등의 결과 값.

간단한 용어, 특정 임의 분포에서 추출 된 데이터를 알고 가정, 데이터의 일정 금액을 제공하지만, 즉, 특정 매개 변수 값의 분포를 모르는 : 모델이 알려져, 알 수없는 매개 변수 의 MLE를 사용하는 것입니다 모델의 매개 변수를 추정한다.

MLE 목표 파라미터 (파라미터 모델)의 세트를 찾는 것이되도록 최대의 모델 출력 데이터를 관찰 할 확률.
\ [max_θP의 Arg ~ (X; θ) \]

MLE의 용액 공정

  • 우도 함수를 작성 (즉, 결합 확률 함수)

우도 함수 : 고정 된 샘플, 샘플 및 파라미터 θ 나타날 간의 확률 함수

  • 우도 함수는 대수 및 분석;
  • 유도;
  • 드 - 우도 함수.

\ [L (X; I) → L (I) = LN (L (X; I)) → \ {FRAC ∂l ∂th} {} \]

예를 들면 :

가정되는 확률 상자 흰색과 검은 색 공, 알의 수, 흑백 볼의 알 수없는 비율은 이제 10 배, 흰색 공을 추구 추출 된 박스의 교체와 함께 무작위 표본 추출을 알고있다 :

상자 번호 1 4 5 6 (7) 8 9 (10)
1 검은 검은 검은 검은 검은 검은 검은 검은 검은 검은
검은 검은 화이트 화이트 검은 검은 검은 화이트 검은 검은
검은 화이트 검은 검은 화이트 검은 화이트 검은 화이트 화이트
4 화이트 검은 화이트 화이트 검은 화이트 검은 화이트 화이트 화이트
5 화이트 화이트 화이트 화이트 화이트 화이트 화이트 화이트 화이트 화이트

흰색 공 비 P, 흑색 구형의 비율은 1-P라고 가정 등은 다음이다 :
\ [L (X-; P) = P (X_1, X_2, X_3, X_4, x_5, x_6에서 x_7의 x_8, x_9, X_ {10}; P) = \ prod_ N = {1} ^ {10} {P (x_i로부터, P)} \]

\ [L (P) = LN (L (X, P)) = \ sum_ {I = 1} ^ {10} {P (x_i로부터, P)} \]

\ [주문 : \ {FRAC ∂l ∂p} {0} = \]

\ [박스 1 그린 흰 공 확률 : L (X, P) = (1-P) ^ {10} → L (P) = LN (L (X, P)) = 10ln (1-P) → 0 버젼 <p <1, 그래서 P = 0 인 경우 때, L의 최대 값 \]

{→ \ FRAC {∂l를} = P ^ 3 (1-P) ^ {7} → L (P) = 3lnp + 7ln (1-P), L (p X) : \ [카세트 (2)는 흰 공 확률을 추출 ∂p} = \ FRAC {3} {P} - \ FRAC {7} {1}, P = 0 → p = 0.3 \]

\ [카세트 (3) 추출 된 흰색 공 확률 : L (X, P) = P ^ (5) (1-P) ^ {5} → L (P) = 5lnp + 5ln (1-P) → \ FRAC {∂l} { ∂p} = \ FRAC {5} {P} - \ FRAC {5} {1}, P = 0 → p = 0.5 \]

\ [카세트 4 추출물 흰색 공 확률 : L (X, P) = P ^ (7) (1-P) ^ {3} → L (P) = 7lnp + 3ln (1-P) → \ FRAC {∂l} { ∂p} = \ FRAC {7} {P} - \ FRAC {3} {1}, P = 0 → p = 0.7 \]

\ [카세트 (5) 추출 된 흰색 공 확률 : L (X, P) = P ^ {10} → L (P) = LN (L (X, P)) = 10lnp → 0 <p <1 이후되도록 경우 p = 1,1- 최대 값 \]

상자 번호 백구 검은 공
1 0 1
0.3 0.7
0.5 0.5
4 0.7 0.3
5 1 0

베이지안 알고리즘 추정

베이지안 알고리즘 후자 사전 확률 분포와 샘플로부터 산출 된 후방 확률을 추정하는 방법이다.

일반적인 개념 :

선험적 확률 또는 이벤트 A의 한계 확률 P (A);

P (A | B) 공지 B A의 발생 확률 조건부 발생도의 사후 확률이라고도;

P는 (B | A) 공지 된 발생 확률 상태 B는 B의 사후 확률이라고도 발생;

선험적 확률 또는 이벤트 B의 에지 확률 P (B);

\ [P (AB) = P (A) P (B | A) = P (B) P (A | B) ⇒P (A | B) = \ FRAC {P (B | A) P (A)} {P (B)} \]

\ [이산 베이 즈 공식의 조건 : P (A_I | B) = \ FRAC {P (B | A_I) P (A_I)} {\ sum_ {J} {P (B | A_I) P (A_I)} } \]

또 다른 예 :

이 다섯 개 상자는 각 상자는 다음과 같은 비율로 검은 색과 흰색 공을 가정하고있다,있다, 그것은 두 공의 교체로 그린 다섯 개 상자 상자의에서 알려져을하고, 공은 흰색이며, Q. 두 볼은있는 상자에서 그려?

상자 번호 백구 검은 공
1 0 1
0.3 0.7
0.5 0.5
4 0.7 0.3
5 1 0

그런 다음 MLE를 이용하여 추정 :
[. L (X-; P) = P ^을 2⇒p 1 \] \

(케이블에 의해 수행되는 경우) 베이지안 추정 알고리즘, 이벤트 상정 추출 흰 공 i 번째 이벤트 박스로부터 추출 B이다 \ (A_I \) 와 같은 다음이다 :
\ [P (A_1 | B) = \ FRAC {P (A_1) P (B | A_1)} {P (B)} = \ FRAC {0.2 * 0 * 0} {0.2 * 0 ^ 2 + 0.2 * 0.3 ^ 2 + 0.2 * 0.5 ^ 2 + 0.2 * 0.7 ^ 2 + 0.2 * (1) ^ 2 } = \ FRAC {0} {0 = 0.366} \]

\ [P (A_2 | B)가 = \ FRAC는 {P (A_2) P (B는 | A_2)은 {P}가 (B)는 0.049} ~~~~~~~~~~~~~~~ P (A_3가 = | {P (B)는}] \ = 0.137 | = \ FRAC는 {A_3)는 P (A_3) P (B}의 B)

\ [P (A_4 | B)가 = \ FRAC는 {P (A_4) P (B는 | A_4)은 {P}가 (B)는 0.268} ~~~~~~~~~~~~~~~ P (A_5가 = | {P (B)는}] \ = 0.564 | = \ FRAC는 {A_5)는 P (A_5) P (B}의 B)

최대 사후 확률 추정

최대 사후 확률, 최대 귀납적 (MAP) 및 최대 선험적 확률 (MLE) 파라미터 θ의 샘플 값이 예상되며

MLE되어 확률 함수 P | 값 (X θ) 때 파라미터 (θ)는, 최대의 선험적 확률을 가정 MLE 등가이다 ;

지도,됩니다 (| θ는 x)는 P는 (θ P를 만들기 위해 노력 θ)는 최대 값의 바로 최대 우도 함수의 θ 기능하지 필요, 사전 확률을 필요로하면서 자체도 상대적으로 나타납니다 θ 큰 .

MAP만큼 다음, 베이지안 알고리즘 분모의 일부만 베이지안 알고리즘을 제거합니다 것으로 간주 될 수있다 :
\ [P ((θ) '| X-) = \ FRAC {P (, θ') P (X- | (θ) ')} {P (X) } ⇒argmax_ {θ'} P (θ를 '| X) ⇒argmax_ {θ'} P (θ ') P (X | θ') \]

EM 알고리즘

의 도입의 예

배경 : 많은 아름다운 여성 직원이 있지만이 회사는, 남성 동료 = [A, B, C]를 가지고 = [작은, 작은 장, 작은 B]. 이러한 여성 직원과 남성 동료가 있다고 의심 "문제를." 과학적으로 당신의 생각을 확인하기 위해, 당신은주의 깊은 관찰했다.

다음의 관찰이 있습니다 :

  1. A는, 작은, 작은 B 함께 이동;
  2. B, 작은이 작은 장과 데이트;
  3. B, 장 작은이 작은 B 함께 이동;
  4. C는 작은 B와 데이트;

데이터, EM의 계산 회수 후 :

초기화 : 모든 조건은 각각 동일하고 모든 사람은 관계를 가지고있다. 따라서, 각각의 모든 남성 동료 여성 직원 "문제"의 확률은 1/3이다;

E 단계 :

  1. 작은 A는 1/2 * 1/3 = 1/6, 또한 작은 아세테이트 1/6 아웃 타임 아웃이었다;
  2. 작은, 작은 장을 가진 B는 1/6 배 나갔다;
  3. B는 작은 장과, 작은 B는 1/6 배 나갔다;
  4. C B는 작은 1/3 시간으로 나갔다;

M-단계 : 업데이트가 가십
\ [작은 확률 B A 문제와 소형 \ FRAC는 {\ FRAC {1} {6}} {\ FRAC {1} {6} + \ FRAC {1} {6}} = \ FRAC { 1} {2} \]

작은 A의 \ [B 작은 B 문제 확률 : \ FRAC {\ FRAC {1} {6}} {\ FRAC {1} {6} * 4} = \ FRAC {1} {4}] 소형으로 당해 제 확률 : \ {FRAC \ FRAC {1} {6} {2} * \ FRAC {1} {6}} * 4 = \ FRAC {1} {2} \]

\ [문제 작은 확률 B 및 C는 1 \]

단계 E : 확률의 계산에있어서 최신

  1. 작은 A는 또한 1/2 * 1/2 = 1/4 및 1/4 작은 아세테이트 아웃 타임 아웃이었다;
  2. 작은 1/2와 B 아웃 작은 1/2 1/4 = 1/8 장 밖 1/2 = 1/4 배;
  3. B 작은 1/2 B 밖으로 1/4 = 1/8 및 1/2 작은 아웃 장의 1/2 = 1/4 배;
  4. B는 작은 C 1 나갔다;

M 단계 : 재가 업데이트 잡담
\ [작은 확률 B A 문제와 소형 \ FRAC는 {\ FRAC {1} {4}} {\ FRAC {1} {4} + \ FRAC {1, } {4}} = \ FRAC {1} {2} \]

\ [작은 A, 작은 B 문제 확률 B와 \ FRAC {\ FRAC {1} {8}} {\ FRAC {1} {8} * 2 + \ FRAC {1} {4} * 2} = \ FRAC {1} {6}, 당해 작은 장 확률, 즉 함께 \ FRAC {2} {3} \]

\ [문제 작은 확률 B 및 C는 1 \]

그럼, 지금, 당신은 진실을 가지고 보인다.

EM 알고리즘은 반복 알고리즘의 타입 기대 최대화 알고리즘 기댓값 최대화 알고리즘은 사후의 알고리즘을 추정 최대 우도 추정 또는 최대 값을 찾을 확률 모델 파라미터이지만, 모델이 관찰 될 수 없다 숨겨진 변수.

EM 알고리즘 과정 :

  • 초기화 파라미터 분포;
  • 다음 중 모두 수렴 할 때까지 반복합니다 :
    • 단계 E는 : 원하는 변수의 확률 분포 함수를 추정 숨겨진;
    • M 단계 다음 원하는 파라미터의 분포 함수를 다시 추정된다.

EM 알고리즘 원리

다음 M, 트레이닝 샘플을 주어진 :
\ [\ {^ {X (. 1)}, {X ^ 2}, ..., {X ^ (m)} \} \]
별도의 샘플들 사이를 식별 할 : 샘플 모델 파라미터의 수 (θ), 최대 우도 분포 모델 함수로서 다음
\ [max_θ의 Arg (θ) = \ sum_ 1 {I} = {m} ^ {로그 (P (X ^ {(I)}. θ))} \]
다음으로, 샘플 데이터 Z 데이터 가정 내재적으로 존재한다 :
\ [Z = \ {^ {Z (1).}, {Z ^ (2)}, ..., Z ^ {(K) } \}는 \]
이때, 변형 분포 모델 우도 함수의 큰 수는 다음과 같다 :
\ [max_θ의 Arg (θ) = \ sum_ 1 {I} = {m} ^ {로그 (P (X ^ {(I)}. ; θ))} \]

\ [= ARG max_θ \ sum_ {I = 1} ^ {m} {로그 [\ sum_ {Z ^ {(j)}} {P (Z ^ {(I)}) P (X ^ {(I)} | ^ {Z (j)}; θ)]}} \]

\ [= argmax_θ \ sum_ {I = 1} ^ {m} {로그 [\ sum_ {Z ^ {(j)}} {P (X ^ {(I)} Z ^ {(j)}; θ) }]} \]

Z는 Q의 분포하자 (Z, θ), 다음 식 :

\ [상기 식에서 Q (Z ^ {(j)}; θ)를 만족 이하의 조건 : Q (Z ^ {(j)}; θ) ≥0 \ sum_ {Z ^ {(j)}} {Q (Z ^ {(j)}; θ) = 1} \]

\ [L은 (θ) = \ sum_는 ^ {m} {로그 [\ sum_ {Z ^ {(j)}} {P (X ^ {(I)} Z ^ {(j)} {난 = 1} ; θ)}]} \ GEQ \ sum_ {I = 1} ^ {m} {\ sum_ {Z ^ {J}} {Q (Z ^ {(j)}; θ) 로그 (\ FRAC {P (X ^ {(I)} ^ {Z (j)}; θ)} {Q (Z ^ {(j)}; θ)})}} \]

다음과 같이 유도 :
\ [L은 (Θ가) = \ sum_ {. I = 1} ^ {m} {로그 [\ sum_ {Z ^ {(J)}} {Q (Z ^ {(J)}], θ) \ cdot \ FRAC {P (X ^ {(I)} ^ {Z (j)}; θ)} {Q (Z ^ {(j)}; θ)}}]} \]

상부 젠슨 원래 의해 \ [부등식 ⇒ = \ sum_ {I = 1} ^ {m} {로그 [E_Q (\ FRAC {P (X ^ {(I)}, Z, θ)} {Q (Z, θ) })]} \]

\ [일본어 ⇒ 로그 함수 f 함수 이후 \ GEQ \ sum_ {I = 1} ^ {m} {E_Q [로그 (\ FRAC {P (X ^ {(I)}, Z, θ)} {Q (Z ; θ)})}] \]

\ [수식 감소 ⇒ 화학식 = \ sum_ I = {1} ^ {m} {\ sum_ {Z} ^ {J} {Q (Z ^ {(j)}; θ) 로그 (\ {P FRAC (X ^ {(I)} ^ {Z (j)}; θ)} {Q (Z ^ {(j)}; θ)})}} \]

젠슨 불평등 설명 :

볼록 함수 f, 아래에 나타낸 바와 같이 :

다음 식의 존재 :
\ [F ((θ) X + ((θ) 1) Y.) \ 패러데이 회전 갖는다 당량 (X) + ((θ) - 1.) F (Y) \]
일반화 후 :
\ [F (+ ... + θ_1x_1 θ_kx_k) \ 당량 θ_1f (X_1) + ... + θ_kf (θ_k) \]

\ [F (E (X)) \ 당량 E (F (X)) \]

\ [其中 : TH_1, ... th_k \ GEQ 0, 기준치 1 + ... + 1 = th_k \]

상기 식에 따라이 부등식 젠슨 의해 도입 될 수 있고, 만족 다음 식 상수 인 경우, 방정식은 등호 바인드 이하, 즉 L (θ)로서 다음된다 얻을
\ [\ FRAC을 {P (X , Z, θ)} {Q (Z, θ) = C} \]

\ [⇒Q (Z, θ) = \ FRAC {P (X, Z, θ)} {C} \]

\ [由于 \ sum_ {Z ^ {(j)}} {Q (Z ^ {(j)}; θ)} = 1⇒Q (Z, θ) = \ FRAC {P (X, Z, θ)} {C \ cdot \ sum_ {Z ^ {(j)}} {Q (Z ^ {(j)}; θ)}} \]

\ [= \ FRAC {P (X, Z] I)} {\ sum_ {Z ^ {(j)}} {cP 인 (X, Z ^ {(j)}; I)}} = \ FRAC {P ( X, Z, I)} {P (X, ⅰ)} = \ FRAC {P (Z | X; I) P (X; I)} {P (X; I)} = P (Z | X, 난 ) \]

즉, Z의 분포는 θ, Z는 X의 확률 분포에 설정된 판정되는 경우는 사실상

하고 원래의 목적 이다 : 샘플 모델 파라미터를 식별 (θ) 분포 모델 우도 함수의 다수, 상기 유도 다음 후
\ [θ ^ {새로운} = argmax_θl (θ) = argmax_θ \ sum_ { I = 1} ^ {m} {\ sum_ {Z ^ {J}} {Q (Z ^ {(j)}; θ ^ {오래}) 로그 (\ FRAC {P (X ^ {(I)}, Z ^ {(j)}; θ)} {Q (Z ^ {(j)} ^ {θ 오래})})}} \]

θ ^ {오래; X ^ {(I)} | \ [= argmax_θ \ sum_ ^ {m} {\ sum_ {Z ^ {(j)}} {P (Z ^ {(j)} {난 = 1} }) 로그 (\ FRAC {P (X ^ {(I)} Z ^ {(j)}; θ)} {P (Z ^ {(j)} | X, θ ^ {오래})})} } \]

\ [= argmax_θ \ sum_ {I = 1} ^ {m} {\ sum_ {Z ^ {J}} {P (Z ^ {(j)} | X ^ {(I)}; θ ^ {오래}) 로그 (P (X ^ {(I)} ^ {Z (j)}; θ))}} - C \]

EM 알고리즘의 흐름

\ [샘플 데이터가 X = \ {X_1, X_2, ... x_m \} 조인트 분포 P (X, Z, θ), 조건부 분포 P (Z | X, θ), 최대 반복 수 J \]

  • 랜덤 초기화 파라미터 모델 (θ)의 초기 값 \ (θ ^ 0 \)

  • EM 알고리즘 반복적 인 프로세스가 시작됩니다 :

    • 단계 E : 기대의 조건부 확률 공동 분배

    \ [Q ^ J = P (Z | X, θ ^ J) ~~~~~~~ L (θ) = \ sum_ {I = 1} ^ {m} {\ sum_ {Z} ^ {J} { P (Z ^ {(j)} | X ^ {(I)}; θ ^ {오래}) 로그 (P (X ^ {(I)} Z ^ {(j)}; θ))}} \ ]

    • 단계 M : l 극대화 함수는 새로운 값 θ를 구하는

    \ [E ^ {J + 1} = ARG max_thl (I) \]

    • 새로운 θ의 결과가 수렴하면, 알고리즘 종료, 최종 모델 파라미터 θ의 출력, 그렇지 않으면 반복적 인 프로세스를 계속

EM 알고리즘 직관적 인 케이스 :

박스 가변 개수의 두 종래 흑백의 볼 확률을 가정 임의로 흰 공 박스로부터 선택이다 \ (P_1, P_2을 \) 의 여분 이러한 확률마다 선택 상자를 추정하기 위해; 다음과 같이 무작위로 다섯 개 연속 공을 선택 기록 :

상자 번호 1 4 5 통계
1 화이트 화이트 검은 화이트 검은 3 블랙 화이트 -2
검은 검은 화이트 화이트 검은 2 블랙 화이트 -3
1 화이트 검은 검은 검은 검은 1 흑백 -4
화이트 검은 화이트 검은 화이트 3 블랙 화이트 -2
1 검은 화이트 검은 화이트 검은 2 블랙 화이트 -3

MLE을 이용한 최우 추정 :
\ [L (P_1) = 로그 (P_1 ^ 6 (P_1 1) ^ 9...) = 9에서 LogIO 6logp_1 + (1-P_1.) \]

\ [\ {∂l FRAC (P_1)} {∂p_1는} = 0 → P_1 = 0.4 \]

\ [마찬가지로 사용할 P_2 = 0.5 \]

이때, 만약 박스의 특정 번호를 모르는 하지만 해결하기 위해 동일한 \ (P_1, P_2 \) 의 값을, 이번에는 더 숨겨진 변수 Z보다 동등, Z는 상기 추출마다 선택된 박스 번호를 나타낸다 박스 1 또는 2, 다음과 같은 때, Z1 추출 선택 박스 첫 번째 예를 나타낸다

상자 번호 1 4 5 통계
Z1 화이트 화이트 검은 화이트 검은 3 블랙 화이트 -2
Z2 검은 검은 화이트 화이트 검은 2 블랙 화이트 -3
Z3 화이트 검은 검은 검은 검은 1 흑백 -4
Z4 화이트 검은 화이트 검은 화이트 3 블랙 화이트 -2
Z5 검은 화이트 검은 화이트 검은 2 블랙 화이트 -3
  • 임의의 초기 확률값 : 흰 공 확률 카세트 (1)가 촬영 : P1 = 0.1, 흰색 공 확률 카트리지 (2)가 촬영 : P2 = 0.9 후 MLE는 Z 값을 계산하도록 각각의 실행에서 추출 된 두 상자의 최대 확률을 계산 이후 다시 사용하여 확률값을 추정하는 최대 우도 추정 방법

\ [L (z_1 = 1 | X; P_1) = P_1 ^ 3 \ 시간 P_2 ^ 2 = 0.1 ^ 3 \ 시간 0.9 ^ 2 = 0.00081 \]

\[ L(z_1=2|x;p_2))=p_1^3 \times p_2^2=0.9^3 \times 0.1^2=0.00729 \]

轮数 盒子1概率 盒子2概率 归一化:盒1 归一化:盒2
1 0.00081 0.00729 0.1 0.9
2 0.00729 0.00081 0.9 0.1
3 0.06561 0.00009 0.999 0.001
4 0.00081 0.00729 0.1 0.9
5 0.00729 0.00081 0.9 0.1
  • 重新计算p的概率值

\[ l(p_1)=log[p_1^{0.1×3+0.9×2+0.999×1+0.1×3+0.9×2}(1-p_1)^{0.1×2+0.9×3+0.999×4+0.1×2+0.9×3}] \]

\[ log[p_1^{5.199}(1-p_1)^{9.796}]=5.199logp_1+9.796log(1-p_1) \]

\[ \frac{∂l(p_1)}{∂p_1}=0→p_1=0.347 \]

\[ 同理,计算得p_2=0.58 \]

  • 根据p的概率值,再次计算在p的条件下,从每个盒子中抽出的概率,如下:
轮数 盒子1概率 盒子2概率 归一化:盒1 归一化:盒2
1 0.0178 0.0344 0.34 0.66
2 0.0335 0.0249 0.57 0.43
3 0.0630 0.0180 0.78 0.22
4 0.0178 0.0344 0.34 0.66
5 0.0335 0.0249 0.57 0.43
  • 根据新的z值,采用MLE进行计算新的p值,如下

\[ p_1=0.392~~~~~~~~~~~~~~~~~~~~~~~~~p_2=0.492 \]

继续迭代,一直迭代到收敛,此时的p值即为所求。

EM算法收敛证明

EM算法的本质为:寻找参数最大似然估计。因此在每次迭代的过程中,只需要迭代后的参数\(θ^{j+1}\)计算的似然函数大于迭代前参数\(θ^{j}\)计算的似然函数即可,如下:
\[ \sum_{i=1}^{m}log(p(x^{(i)};θ^{j+1})) \geq \sum_{i=1}^{m}log(p(x^{(i)};θ^{j})) \]

具体的证明流程,略

GMM

引入例子:

随机选择1000名用户,测量用户的身高;若样本中存在男性和女性,身高分别服从高斯分布\(N(μ_1,σ_1)和N(μ_2,σ_2)\)的分布,试估计参数:\(μ_1,σ_1,μ_2,σ_2\)

  • 若明确知道样本的情况(即男女性数据是分开的),那么我们使用极大似然估计来估计这个参数值;
  • 如果样本是混合而成的,不能明确的区分开,那么就没法直接使用极大似然估计来进行参数估计,此时就引出了GMM

GMM(Gaussian Mixture Model,高斯混合模型)是指该算法由多个高斯模型线性叠加混合而成。每个高斯模型称之为component(成分)。GMM算法描述的是数据本身存在的一种分布。

GMM算法常用于聚类应用中,component的个数就可以认为是类别的数量。

假定GMM有k个Gaussian分布线性叠加而成,那么概率密度函数如下:
\[ p(x)=\sum_{k=1}^{K}{p(k)p(x|k)}=\sum_{k=1}^{K}{π_kp(x;μ_k,Σ_k)}~~~;π_k:选择第k个类别的概率,μ_k,Σ_k:均值和方差矩阵 \]
对数似然函数如下:
\[ l(π,μ,Σ)=\sum_{i=1}^{N}{log[\sum_{k=1}^{K}{π_kp(x^i;μ_k,Σ_k)}]} \]

GMM求解过程

E-step,在给定x的条件下,数据属于第j个类别的概率:
\[ w_j^{(i)}=Q_i(z^{(i)}=j)=p(z^{(i)}=j|x^{(i)};π,μ,Σ) \]
M-step:极大化对数似然函数l(π,μ,Σ),更新参数π,μ,Σ:

具体的推导步骤过于繁琐,故省略

\[ μ_j=\frac{\sum_{i=1}^{m}{w_j^{(i)}x^{(i)}}}{\sum_{i=1}^{m}{w_j^{(i)}}} \]

\[ Σ_j=\frac{\sum_{i=1}^{m}{w_j^{(i)}(x^{(i)}-μ_l)[(x^{(i)}-μ_j)]^T}}{\sum_{i=1}^{m}{w_j^{(i)}}} \]

\[ π_j=\frac{1}{m}\sum_{i=1}^{m}{w_j^{(i)}} \]

在π,μ,Σ更新完成后,又可进行E-step,不停的进行迭代,直至收敛;

在收敛后,用收敛后的参数,对于待测样本x都可以得出在不同的类别j下的概率值,选一个最大的概率值即为预测值。

实际应用

  • EM1_案例一:EM分类初识及GMM算法实现
  • EM2_案例二:GMM算法分类及参数选择案例
  • EM3_案例三:GMM的不同参数
  • EM4_案例四:EM无监督算法分类鸢尾花数据

GitHub

추천

출처www.cnblogs.com/zhuchengchao/p/11930371.html