《统计学习方法》--最大熵模型的学习:对偶函数求偏导的不解

  在《统计学习方法》第一版P84或第二版P99中提到:
  “具体地,求 L ( P , w ) L(P, w) P ( y x ) P(y|x) 的偏导数
L ( P , w ) P ( y x ) ) = x , y P ~ ( x ) ( l o g P ( y x ) + 1 ) y w 0 x , y ( P ~ ( x ) i = 1 n w i f i ( x , y ) ) = x , y P ~ ( x ) ( l o g P ( y x ) + 1 w 0 i = 1 n ( w i f i ( x , y ) ) \begin{aligned} \frac{\partial L(P,w)}{\partial P(y|x))} & =\sum_{x,y}{\tilde P(x)(logP(y|x)+1)}-\sum_y{w_0}-\sum_{x,y}(\tilde P(x)\sum_{i=1}^n{w_if_i(x,y))} \\ & =\sum_{x,y}{\tilde P(x)(logP(y|x)+1-w_0-\sum_{i=1}^n{(w_if_i(x,y)})} \\ \end{aligned}   令偏导数等于0,在 P ~ ( x ) > 0 \tilde P(x)>0 的情况下”,需要将括号内置0,解得 P ( y x ) P(y|x)

疑惑:在等式第二行的括号中, l o g P ( y x ) < 0 logP(y|x)<0 f i ( x , y ) 0 f_i(x,y)\ge0 ,拉格朗日乘子非负,但是由于这个1的存在,无法得到括号内非负或者非正的结论,又怎么可以轻易置0呢

猜测:我在很多博文中看到这一步骤直接跳过,但又百思不得其解。
  书中最后得到最大熵模型的一般表达式如下:
P w ( y x ) = 1 Z w ( x ) exp ( i = 1 n w i f i ( x , y ) ) Z w ( x ) y exp ( i = 1 n w i f i ( x , y ) ) P_w(y|x)=\frac{1}{Z_w(x)}\text {exp}(\sum_{i=1}^nw_if_i(x,y)) \\ Z_w(x)\sum_y{\text{exp}(\sum_{i=1}^nw_if_i(x,y))}   这里, x R n x\in R^n 为输入, y { 1 , 2 , . . . , K } y\in \left \{1,2,...,K\right\} 为输出, w R n w\in R^n 为权值向量, f i ( x , y ) f_i(x,y) i = 1 , 2 , . . . , n i=1,2,...,n 为任意实值特征函数。
  我发现其中的 w 0 w_0 并没有包含进去,也就是说,结果与 w 0 w_0 无关,如果要让1不造成影响,只要将 w 0 = 1 w_0=1 即可,这样括号内一定为非正,置0的做法成立。如此看来确实是小问题,直接考虑偏导等于0就行。

发布了27 篇原创文章 · 获赞 10 · 访问量 5011

猜你喜欢

转载自blog.csdn.net/l1l1l1l/article/details/102877651