补充:
风险极小化准则:由样本的随机性 故L(y,f(x,a))是r.v 故考虑期望R(a)=∫LdP(x,y)
模式识别:y∈{0,1}, L(y,f(x,a))=P(y!=f(x,a))
回归估计:L(y,f(x,a))=(y-f(x,a))^2
密度估计:L(y,f(x,a))=-logP(x,a)
经验函数极小:Remp(a)=1/lΣQ(zi,a)
PLA: y∈{1,-1} h(x)=sign(W'X) err=||y^!=y||
线性回归:y∈R h(x)=W'X err=(y^-y)^2
LR 返回离散值
X--LR-->Pro--sigmoid-->[0,1]--sign->0/1
H:h(x)=sigmoid(W'X) 由指数族中自然参数与参数的转化而来 W'X-->参数 h(x)-->自然参数
目标:正确分类概率最大 分类是否正确服从二项分布
max L(W)=πP(1|xi)^yi(1-P(1|xi)^1-yi
max L(W)<==>min L(Y,P(Y|X))=J(w)=1/Nlog(u(W'X)) 由于非凸;为密度估计
优化目标:1/Nlog(u(W'X))
迭代思想:随机梯度迭代 Wt+1<----Wt+sigmoid(-yiW'xi)yixi
可优化地方:步长随迭代次数增加而变小 4/(1+i+j)+0.01
梯度上升 计算量大-->随机梯度替换(数据集少时,迭代次数小)-->步长(开始变化很大,随迭代次数增加变小)
为什么使用h(x)=sigmoid(W'X)?
为正样本概率,则yi~B(1,)
此外,还可从其他角度找出h(x)形式
当多个分类时,分类结果服从多项式分布,仍可由指数族的形式推出softmax函数进而推出softmax回归(注意,参数为k-1个 )