机器学习-周志华-个人练习13.3

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qilixuening/article/details/72829117

13.3 假设数据由混合专家(mixture of experts)模型生成,即数据是基于 k 个成分混合而得的概率密度生成:

p(xθ)=i=1kαip(xθi)(13.22)

其中, θ={θ1,θ2,,θk} 是模型参数, p(xθi) 是第 i 个混合成分的概率密度,混合系数 αi0,ki=1αi=1 。假设每个混合成分对应一个类别,但每个类别可能包含多个混合成分。试推导相应的生成式半监督学习算法。


首先,我们假定:

  • 数据 X 包含 M=l+u 个样本: X={xj},j=1,,M
  • 所有样本中共有 |C| 个类别: cj 表示样本的类别, cjC
  • 混合模型含有 N 个混合成分, {mj=i},i=1,,N 表示样本 xj 可能的混合成分, θi 表示对应混合成分的模型参数,则相应模型可以表示为 f(xjθi)=p(xjmj=i,θi)=p(xjθi)

则与书上公式 (13.4) 类似,在此处:

LL(DlDu)=(xi,cj)Dllnp(xj,cjθ)+xiDulnp(xjθ)=(xi,cj)Dllni=1Nαip(cjxj,mj=i,θi)p(xjmj=i,θi)+xiDulni=1Nαip(xjmj=i,θi)=(xi,cj)Dllni=1Nαip(cjxj,mj=i,θi)f(xjθi)+xiDulni=1Nαif(xjθi)(1)

接下来介绍一下题目中所说的 每个类别可包含多个混合成分的混合模型的具体表示。

首先,我们知道:

p(mj=ixj)=αip(xjθi)i=1Nαip(xjθi)(2)

根据( D. J. Miller and H. S. Uyar, 1996)的观点,主要有两种混合方法:

划分混合模型(The “Partitioned” Mixture Model, PM):
混合组分与各个类别具有硬划分的关系,即 MiCk ,其中 Mi 代表混合组分 i ,也就是说各个类别是由特定的混合组分组合而成, Ck 代表类别 k 具有的混合组分形成的集合,混合模型后验概率为:

p(cj=kxj)=i=1MiCkNαip(xjθi)i=1Nαip(xjθi)(3)

广义混合模型(The Generalized Mixture Model, GM):
每个混合组分 i{1,,K} 都有可能是形成某个类别 k 的一个混合成分,定义

p(cjmj,xj)=p(cjmj)=βcjmj(4)
,其中第二项成立是因为 βcjmj 与具体的 xj 取值无关。在此基础上可知,混合模型后验概率为:
p(cjxj)=i=1N(αip(xjθi))βcjii=1Nαip(xjθi)(5)

显然,令 GM中真正属于 cj 的混合成分 i 均为 βcji=1 ,其他 βcji=0 ,则此时广义混合模型退化为 PM

在这里,我们采用GM ,采用高斯分布作为混合成分,来推导EM算法的更新参数。
显然,此时:

f(xjθi)=p(xjθi)=p(xjμi,Σi)(*)

(1) 变为:
LL(DlDu)=(xi,cj)Dllni=1Nαip(cjxj,mj=i,μi,Σi)p(xjμi,Σi)+xiDulni=1Nαip(xjμi,Σi)(6)

(4) 带入 (6) 可得:
LL(DlDu)=(xi,cj)Dllni=1Nαiβcjip(xjμi,Σi)+xiDulni=1Nαip(xjμi,Σi)(7)

我们的目的是要求得最优的 αi,βcji,μi,Σi 使上式 (7) 取得最大值。

在这里,依据对数据完整性的不同看法,可有两种EM算法:
EM-I(假定不含类标记):

对于 (xj,cj)DlxjDu ,均缺乏混合成分 mj 信息,相应的完整数据为 {(xj,cj,mj)} {(xj,mj)} ,也就是说不用推断 xjDu 的类标记。

EM-II(假定含类标记):

对于 Dl 定义同上,但对于 xjDu ,认定其缺少 mj,cj ,因此对应于 xjDu 的完整数据为 {(xj,cj,mj)} ,也就是说既要推断 xjDu 的类标记,还要推断 xjDu 的混合成分。


EM-I
对于混合系数 αi ,除了要最大化 LL(DlDu) ,还应满足隐含条件: αi0,Ni=1αi=1 ,因此考虑对 LL(DlDu) 使用拉格朗日乘子法,变为优化

LL(DlDu)+λ(i=1Nαi1)(8)

(7) 带入 (8) ,并令 (8) αi 的导数为0,得到
LL(DlDu)αi=xjDlβcjip(xjμi,Σi)i=1Nαiβcjip(xjμi,Σi)+xjDup(xjμi,Σi)i=1Nαip(xjμi,Σi)+λ=0(9)


p(mj=icj,xj,μi,Σi)=αiβcjip(xjμi,Σi)i=1Nαiβcjip(xjμi,Σi)(10)

同时,将高斯模型 () 带入 (2) 可得:
p(mj=ixj,μi,Σi)=αip(xjμi,Σi)i=1Nαip(xjμi,Σi)(11)

(9) 两边同时乘以 αi ,将 (10),(11) 代入可得:
0=xjDlp(mj=icj,xj,μi,Σi)+xjDup(mj=ixj,μi,Σi)+αiλ(12)

(12) 对所有高斯混合成分求和:
0=xjDli=1Np(mj=icj,xj,μi,Σi)+xjDui=1Np(mj=ixj,μi,Σi)+αiλ=xjDl1+xjDu1+λ=M+λ(13)

(13) 可得, λ=M ,将其带入 (12) 可得:
αi=1MxjDlp(mj=icj,xj,μi,Σi)+xjDup(mj=ixj,μi,Σi)(14)

对于高斯分布,其偏导具有如下性质:

p(xμi,Σi)μip(xμi,Σi)Σi=p(xμi,Σi)Σ1i(μix)=p(xμi,Σi)Σ2i((xμi)(xμi)Σi)(15)(16)

(7) μi 的偏导,结合 (15),(10),(11) 可得:
LL(DlDu)μi=xjDlαiβcjip(xjμi,Σi)i=1Nαiβcjip(xjμi,Σi)Σ1i(μixj)+xjDuαip(xjμi,Σi)i=1Nαip(xjμi,Σi)Σ1i(μixj)=xjDlp(mj=icj,xj,μi,Σi)Σ1i(μixj)+xjDup(mj=ixj,μi,Σi)Σ1i(μixj)=Σ1ixjDlp(mj=icj,xj,μi,Σi)(μixj)+xjDup(mj=ixj,μi,Σi)(μixj)(17)

(17)=0 ,将 (14) 带入可得:
μi=1MαixjDlxjp(mj=icj,xj,μi,Σi)+xjDuxjp(mj=ixj,μi,Σi)(18)

同样地,求 (7) Σi 的偏导,结合 (16),(10),(11) 可得:
LL(DlDu)Σi=xjDlαiβcjip(xjμi,Σi)i=1Nαiβcjip(xjμi,Σi)Σ2i((xjμi)(xjμi)Σi)+xjDuαip(xjμi,Σi)i=1Nαip(xjμi,Σi)Σ2i((xjμi)(xjμi)Σi)=xjDlp(mj=icj,xj,μi,Σi)Σ2i((xjμi)(xjμi)Σi)+xjDup(mj=ixj,μi,Σi)Σ2i((xjμi)(xjμi)Σi)(19)

(19)=0 ,将 (14) 带入可得:
Σi=1MαixjDlp(mj=icj,xj,μi,Σi)((xjμi)(xjμi))+xjDup(mj=ixj,μi,Σi)((xjμi)(xjμi))(20)

对于系数 βki ,除了要最大化 LL(DlDu) ,还应满足隐含条件: βki0,|C|k=1βki=1 ,因此考虑对 LL(DlDu) 使用拉格朗日乘子法,变为优化

LL(DlDu)+λk=1|C|βki1(21)

(7) 带入 (21) ,并令 (21) βki 的导数为0,得到

LL(DlDu)βki=xjDlcj=kαip(xjμi,Σi)i=1Nαiβcjip(xjμi,Σi)+λ=0(22)

两边同时乘以 βki ,结合 (10) 得:
0=xjDlcj=kαiβkip(xjμi,Σi)i=1Nαiβcjip(xjμi,Σi)+βkiλ=xjDlcj=kp(mj=icj,xj,μi,Σi)+βkiλ(23)

(23) 对所有类标记求和:
0=k=1|C|xjDlcj=kp(mj=icj,xj,μi,Σi)+k=1|C|βkiλ=xjDlp(mj=icj,xj,μi,Σi)+λ(24)

即:
λ=xjDlp(mj=icj,xj,μi,Σi)(25)

(25) 带入 (23) 可得:
βki=xjDlcj=kp(mj=icj,xj,μi,Σi)xjDlp(mj=icj,xj,μi,Σi)(26)

EM-II
对于EM-II,由于需要预测 xjDu 下的 cj ,根据贝叶斯定理, (7) 变为:
LL(DlDu)=(xi,cj)Dllni=1Nαiβcjip(xjμi,Σi)+xiDulni=1Nαip(xjμi,Σi)=(xi,cj)Dllni=1Nαiβcjip(xjμi,Σi)+xiDulni=1Nk=1|C|αip(cj=kxj,mj=i,μi,Σi)p(xjμi,Σi)=(xi,cj)Dllni=1Nαiβcjip(xjμi,Σi)+xiDulni=1Nk=1|C|αiβkip(xjμi,Σi)(27)

显然,此时的模型参数 αi,μi,Σi EM-I一致,对于 βki ,同样满足隐含条件: βki0,|C|k=1βki=1 ,因此同样将 (27) 带入 (21) 求偏导,并令 (21) βki 的导数为0,得到
LL(DlDu)βki=xjDlcj=kαip(xjμi,Σi)i=1Nαiβcjip(xjμi,Σi)+xjDuαip(xjμi,Σi)i=1Nαip(xjμi,Σi)+λ=0(28)


p(mj=i,cj=kxj,μi,Σi)=αiβkip(xjμi,Σi)i=1Nαip(xjμi,Σi)(29)

(28) 两边同乘 βki ,结合 (10),(29) 可得:
0=xjDlcj=kp(mj=icj,xj,μi,Σi)+xjDup(mj=i,cj=kxj,μi,Σi)+βkiλ(30)

对所有类标记求和可得:
λ=Mαi(31)

最后,将 (31) 带入 (30) 即可解得:
βki=1MαixjDlcj=kp(mj=icj,xj,μi,Σi)+xjDup(mj=i,cj=kxj,μi,Σi)(32)

由此,我们得到了EM-I和EM-II算法下的模型参数 αi,μi,Σi,βki 的更新公式,接下来就可以用标准的EM算法进行参数更新,过程不再详述。


参考文献:
Miller, D. J., and Uyar, H. S. 1997. A mixture of experts classifier with learning based on both labelled and unlabelled data. In NIPS 9.

猜你喜欢

转载自blog.csdn.net/qilixuening/article/details/72829117