机器学习十大算法2----logistics回归

补充:

风险极小化准则:由样本的随机性 故L(y,f(x,a))是r.v  故考虑期望R(a)=∫LdP(x,y)

模式识别:y∈{0,1}, L(y,f(x,a))=P(y!=f(x,a))

回归估计:L(y,f(x,a))=(y-f(x,a))^2

密度估计:L(y,f(x,a))=-logP(x,a)

经验函数极小:Remp(a)=1/lΣQ(zi,a)

PLA:  y∈{1,-1}  h(x)=sign(W'X)   err=||y^!=y||

线性回归:y∈R  h(x)=W'X   err=(y^-y)^2

LR  返回离散值

X--LR-->Pro--sigmoid-->[0,1]--sign->0/1

H:h(x)=sigmoid(W'X)       由指数族中自然参数与参数的转化而来   W'X-->参数   h(x)-->自然参数

目标:正确分类概率最大   分类是否正确服从二项分布  

max  L(W)=πP(1|xi)^yi(1-P(1|xi)^1-yi      

max L(W)<==>min  L(Y,P(Y|X))=J(w)=1/Nlog(u(W'X))   由于非凸;为密度估计

优化目标:1/Nlog(u(W'X)) 

迭代思想:随机梯度迭代  Wt+1<----Wt+sigmoid(-yiW'xi)yixi

可优化地方:步长随迭代次数增加而变小  4/(1+i+j)+0.01

                   梯度上升 计算量大-->随机梯度替换(数据集少时,迭代次数小)-->步长(开始变化很大,随迭代次数增加变小)

为什么使用h(x)=sigmoid(W'X)?

\Theta i为正样本概率,则yi~B(1,\Theta i)

P(y|\Theta )=\Theta ^{y}(1-\Theta )^{1-y} =exp(yln\frac{\Theta }{1-\Theta }+ln(1-\Theta ))=exp(\psi (y)\eta (\Theta )+A(\eta ))

\eta =ln(\frac{\Theta }{1-\Theta })==>\Theta =sigmoid(\eta )

此外,还可从其他角度找出h(x)形式 

当多个分类时,分类结果服从多项式分布,仍可由指数族的形式推出softmax函数进而推出softmax回归(注意,参数为k-1个 )

猜你喜欢

转载自blog.csdn.net/weixin_42492025/article/details/83148061