別のEMアルゴリズムと、自分の理解の導出

別のEMアルゴリズムと、自分の理解の導出


I.はじめに

EMアルゴリズムは、メイン解決するための確率モデルを生成し、隠れ変数の推定とハイブリッドモデルのパラメータを問題。
単純なモデルでは、解析解に基づいて最尤推定法を直接得ることができ、隠された変数の複雑なモデルを有していてもよく、MLEは、直接分析ソリューションを使用することは困難であり、その後、EMアルゴリズムが場に出ます。
隠れ変数を解くEステップの問題は、Mステップは、最大尤度モデルパラメータ値を求める方法であるモデルパラメータ値を、解決します。

自分の理解:ステップバイステップでは、私は散歩、反復プロセスを見て、見てみましょう
まず、直接先験的モデルのセットのモデルパラメータ値のセットを設定し、推定パラメータ値を使用して、でも私たちはブラインドを設定すると言うことができ、そのようなセットは確かにそう、我々はより多くの正確なパラメータ値を期待して十分に正確ではありません、次に隠れ変数、潜在変数が得られ、合わせて検査を得た隠れ変数パラメータのその値の問題を解決するために、今、パラメータ値のセットを使用します。パラメータ値がデータのこのセットより良い試合になるように、後方には、観測データの先験的に基づいて補正されます。


第二に、概要

データのセットを想定、\(X- = \ {X ^ I、X ^ 2 \ cdots、X ^ N- \} \)であって、\(N- \)得られたハイブリッドモデルのセットによってサンプルの独立したサンプルセットと、私たちがしたい\(\シータ\)を満たす:
\ [\ Argの\最大_ {\シータ}のlogP(X- | \シータ)\]

しかし、Xは、ハイブリッドモデルのグループは、隠れ変数が付属している\(Z \)に関連する、\(Z \)サンプルが属するモデルを表します。
上記式を求める直接法を用いて最尤推定は、分析溶液によって解決次に、EMアルゴリズムにより、困難である:
\ [\シータ^ {(T + 1)} = \アルギニン\最大_ {\シータ} \ int_Z \; P(Z | X、 \シータ^ {(T)})\; logP値(X、Z | \シータ)\]

連続反復解法、得られ通じ\(\シータ\)することができます\(logPを(X | \シータ )\) 私たちの目的を達成するために、増加しています。

確率モデル、それまでに生成されたとして知られているデータの場合|(\シータP(X \ )\) 非常に複雑になる可能性があり、我々は知らない|(\シータP(X \を )\) 2の形でスミアの目は、結果的に隠された変数が存在すると仮定し、それは世代モデルのためのモデルに従うと仮定し、これだけの誘導バイアスを使用し、知らない\(Z- \)、\ (Z-は、\)を担当している(\ Xを\)を前提に、生成される\(P(X)\)構造のような特定の処理と構造を有しています。この時点で、
\(P(X-)= \ {INT_ Z} P(X、Z)dZと\) \(P(X)\)分解処理。
隠された変数の導入\(Z \)ストライク\(\シータ\)


第三に、収束

上記で得られた\(\シータ\)本当に私たちの目的を達成することができますか?でも取得|(\シータのlogP(X \ )\) 素晴らしいです。
\ [\開始{整列}のlogP (X | \シータ)&=ログの\ FRAC {P(X、Z | \シータ)} {P(Z | X、\シータ)} \\&=ログ{P(X 、Z | \シータ)} -ログ{P(Z | X、\シータ)} \端{整列} \]

同時に両側\(P(Z | X、 \シータ^ {(T)})\) 積分が得られる:
[\}整列\左開始{&= \ {Z INT_} P (Z | X、\シータ^ {(T)})ログ {P(X | \シータ)} dZと\\&=ログ{P(X | \シータ)} \ INT_ {Z} P(Z | X、\シータ^ {(T) })dZと\\&=ログ{ P(X | \シータ)} \端{整列} \]

左の[ログ\ |(X、\シータ^ {(T)} Z)\ [\ {Z} P INT_右边&= \ {整列}開始{P(X、Z | \シータ)} - ({PログZ | X、\シータ)} \右] dZと\\&= \ INT_ {Z} P(Z | X、\シータ^ {(T)})ログ{P(X、Z | \シータ)} dZと - \ INT_ {Z} P(Z | X、\シータ^ {(T)})ログ{P(Z | X、\シータ)} dZと\\&Q(\シータ、\シータ^ {(T)})= \ INT_ {Z} P(Z | X、\シータ^ {(T)})ログ{P(X、Z | \シータ)} dZと\\&H(\シータ、\シータ^ {(T)})= \ INT_ {Z} P(Z | X、\シータ^ {(T)})ログ{P(Z | X、\シータ)} dZと\\&ログ{P(X | \シータ^ {(T + 1) })} -log {P(X | \シータ^ {(T)})} = Q(\シータ^ {(T + 1)}、\シータ^ {(T)})-Q(\シータ^ { (T)}、\シータ^ {(T)})+ H(\シータ^ {(T)}、\シータ^ {(T)})-H(\シータ^ {(T + 1)}、\シータ^ {(T)})\ {端整列} \]

\(\シータ^ {(T + 1)} \) 式の、得られた直接得られる:
({(T用+ 1)} \シータ^、\ ^ {シータ(T)})\ [Q \ GEQ Q(\シータ、\シータ^ {(T)})\]

このとき、そのよう\(\シータ= \シータ^ {(T)} \) 次に、
\ [Q(\シータ^ {(T + 1)}、\シータ^ {(T)})\ GEQ Q(\シータ^ {(T)}、\のシータ^ {(T)})\]

\ [\開始{整列} H(\シータ^ {(T)}、\シータ^ {(T)})-H(\シータ^ {(T + 1)}、\シータ^ {(T)}& = \ INT_ {Z} P(Z | X、\シータ^ {(T)})ログ{P(Z | X、\シータ^ {(T)})} - \ INT_ {Z} P(Z | X \シータ^ {(T)})ログ{P(Z | X、\シータ^ {(T + 1)})} dZと\\&= \ INT_ {Z} P(Z | X、\シータ^ { (T)})[ログ{P(Z | X、\シータ^ {(T)})} - ログ{P(Z | X、\シータ^ {(T + 1)})}] dZと\\& = \ INT_ {Z} P(Z | X、\シータ^ {(T)})ログの\ FRAC {P(Z | X、\シータ^ {(T)})} {P(Z | X、\シータ^ {(T + 1)})} dZと\\&= KL(P(Z | X、\シータ^ {(T)})\; || \; P(Z | X、\シータ^ {(T +1)}))\ GEQ 0 \端{整列} \]

そう\ [ログ{P(X | \シータ^ {(T + 1)})} -log {P(X | \シータ^ {(T)})} \ GEQ 0 \]

\ [ログ{P(X | \シータ^ {(T + 1)})} \ GEQログ{P(X | \シータ^ {(T)})} \]


第四に、完全な導出

Jesen不等式:関数fは凹状である:\ [F [E] \ GEQ E [F] \]

前記\(F \)は凹関数を表し、\(E \)は、所望を表します。例えば、\は([E(X)をログ ] \ GEQ E [ログ(X)] \)

第一种推导方法
\ [\開始{整列}ログ{P(X | \シータ)}&=ログ\ INT_ {Z} P(X、Z | \シータ)はdZ =ログ\ INT_ {Z} \ FRAC { P(X、Z | \シータ)} {Q(Z)} Q(Z)dZと\\&= E_ {Q(Z)} [\ FRAC {P(X、Z | \シータ)ログ(} {QをZ)}] \ GEQ E_ {Q(Z)} [ログ\ FRAC {P(X、Z | \シータ)} {Q(Z)}] \端{整列} \]

撮影時等号である(\ FRAC {P(X \
、Z | \シータ)} {Q(Z)} = C \) 我々は、(E_ {Q(Z)を\ FRAC {P(X、\ログ[} Z | \シータ)} {Q (Z)}] \) と呼ばれている\(ELBO \)
換言すれば、\(ELBOが\)されている\(ログ{P(X | \シータ)} \) 下限、停止ELBOを増加させる、缶絶えず増加\(ログ{P(X | \シータ)} \)

私たちは、$ \ int_Zの後ろに見ることができ、P(Z | X、\シータ^ {(T)}); logP値(X、Z | \シータ)$ ここにある\(ELBO \)


第二种推导方法
\ [\開始{整列}ログ{P(X | \シータ)}&=ログの\ FRAC {P(X、Z | \シータ)} {P(Z | X、\シータ)} \ \&=ログP(X、Z | \シータ) -ログP(Z | X、\シータ)\\&=ログの\ FRAC {P(X、Z | \シータ)} {Q(Z)} - \ FRAC {ログP(Z | X、\シータ)} {Q(Z)} \端{整列} \]

同時に配信に方程式の両辺\(Q(Z)\)所望の要件(同時に両側\(Q(Z)\)の積分)、
左または(上記の特定のステップを参照して)左に等しい
[\}右側&{始める整列\ = \ INT_ {Z} Q( Z)ログ\ FRAC {P(X、Z | \シータ)} {Q(Z)} dZ- \ INT_ {Z} Q(Z)のログの\ FRAC {P(Zログ| X、\シータ)} {Q (Z)} dZと\\&= ELBO + KL(Q(Z)\; || \; P(Z | X、\シータ))\端{整列} \]

とき\(Q(Z)とP(Z | X、\シータ )\) 平等ときと同じ分布を持ちます。

こうして:
E-ステップが:= Q Pを探す
Mステップ):(多くの異なる形で
整列\ [\&\アルギニン\最大_ {\シータ} \}(Z)ログ\ Z {QをINT_ {PのFRAC} {開始を(X、Z | \シータ) } {Q(Z)} dZと\\&\のarg \最大_ {\シータ} \ INT_ {Z} Q(Z)ログ{P(X、Z | \シータ)} dZと\ \&\のarg \最大_ { \シータ} \ INT_ {Z} P(Z | X、\シータ^ {(T)})ログ{P(X、Z | \シータ)} dZと\\&\引数\ MAX_ {\シータ} \ sum_ {Z } P(Z | X、\シータ^ {(T)})ログ{P(X、Z | \シータ)} \端{整列} \]

余談:GMMでは、我々は直接\(Q(Z)は、\)のように書かれている\(P(Z | X、\シータ)\)、Zは経験した後、あります。この時点で、
\は[P(X | \ログシータ)をELBO \を=]

我々は最大化停止すると\を(ELBO \)とき、つまり、最大化$ログP(X | \シータ )$。
彼の理解は最大からです|(\のP(Xログイン\をシータを)\) このタスクでは、最大化となりました\(P(X、Zログイン | \シータを)\) このタスク。
直接最大化するので\(P(Xログイン| \のシータ)\) このタスクを、我々はこれを行うことはできませんし、隠された変数の導入は、\(Z- \)は、私たちが問題を解決するために(分布は、サンプルを対応するためにどのモデル所属します)。段階への第二段階の共同分布を最大化しようとしている確率:。


第五に、EM一般化

\ [たlogP(X | \シータ)= ELBO + KL(Q(Z)|| P(Z | X、\シータ))\]


\ [L(Q、\シータ)= ELBO = E_ {Q(Z)} [ログ\ FRAC {P(X、Z | \シータ)} {Q(Z)}] \]

发散一下
\(logP値(X | \シータ)= E_ {Q(Z)} [ログ{P(X、Z | \シータ)}] - E_ {Q(Z)} [ログ\; Q(Z)] + KL(Q(Z)|| P(Z | X、\シータ))\)
\(= E_ {Q(Z)} [ログ{P(X、Z | \シータ)}] + H(Q( Z))+ KL(Q(Z)|| P(Z | X、\シータ))\)
\(= E_ {Q(Z)} [ログ{P(X、Z | \シータ)}] + H (Q(Z)、P(Z | X、\シータ))\)

Eステップ:固定\(\シータ\)、Qを見つけ、この時点で\(logP値(X | \シータが )\) 固定値である:
\ [\整列開始{Q} ^ {(T + 1)}& = \引数\ MIN_ {Q} \ MAX_ KL(|| P、Q)= \のarg {Q} ELBO \\&= \のarg \ MAX_ {Q} L(Q、\シータ^ {(T)})\\ &= \のarg \最大_ { \シータ} E_ {Q(Z)} [\ログFRAC {P(X、Z | \シータ^ {(T)})} {Q(Z)}] \端{整列} \]

Mステップ:固定\(q個の\) 找出\(\シータ\) \
[\ {整列}開始\シータ^ {(T + 1)}&= \のarg \最大_ {\シータ} ELBO = \引数の\最大_ {\シータ} L(Q ^ {(T + 1)}、\シータ)\\&= \のarg \最大_ {\シータ} E_ {Q ^ {(T + 1)}(Z)} [ \ログFRAC {P(X、Z | \シータ)} {Q ^ {(T + 1)}(Z)}] \\&= \のarg \最大_ {\シータ} E_ {Q ^ {(T + 1 )}(Z)} [ログ{P(X、Z | \シータ)}] \端{整列} \]


おすすめ

転載: www.cnblogs.com/SpingC/p/11632525.html