在《统计学习方法》第一版P84或第二版P99中提到:
“具体地,求
L(P,w)对
P(y∣x)的偏导数
∂P(y∣x))∂L(P,w)=x,y∑P~(x)(logP(y∣x)+1)−y∑w0−x,y∑(P~(x)i=1∑nwifi(x,y))=x,y∑P~(x)(logP(y∣x)+1−w0−i=1∑n(wifi(x,y)) 令偏导数等于0,在
P~(x)>0的情况下”,需要将括号内置0,解得
P(y∣x)。
疑惑:在等式第二行的括号中,
logP(y∣x)<0,
fi(x,y)≥0,拉格朗日乘子非负,但是由于这个1的存在,无法得到括号内非负或者非正的结论,又怎么可以轻易置0呢?
猜测:我在很多博文中看到这一步骤直接跳过,但又百思不得其解。
书中最后得到最大熵模型的一般表达式如下:
Pw(y∣x)=Zw(x)1exp(i=1∑nwifi(x,y))Zw(x)y∑exp(i=1∑nwifi(x,y)) 这里,
x∈Rn为输入,
y∈{1,2,...,K}为输出,
w∈Rn为权值向量,
fi(x,y),
i=1,2,...,n为任意实值特征函数。
我发现其中的
w0并没有包含进去,也就是说,结果与
w0无关,如果要让1不造成影响,只要将
w0=1即可,这样括号内一定为非正,置0的做法成立。如此看来确实是小问题,直接考虑偏导等于0就行。