机器学习---线性模型

本帖为学习笔记帖,参照b站解读西瓜书、西瓜书来记的,如有漏错,欢迎批评指正。


基本形式(西瓜书上的)

给定由 d d d 个属性描述的示例 x = ( x 1 , x 2 , . . . , x d ) x=(x_1,x_2,...,x_d) x=x1,x2,...,xd,其中 x i x_i xi x x x 在第 i i i 个属性上的取值,线性模型(Linear model)试图学得一个属性的线性组合来进行预测函数,即
f ( x ) = w 1 x 1 + w 2 x 2 + . . . + w d x d + b f(x)=w_1x_1+w_2x_2+...+w_dx_d+b f(x)=w1x1+w2x2+...+wdxd+b

写成向量形式为:
f ( x ) = w T x + b f(x)=\bm{w}^\mathrm{T}\bm{x}+b f(x)=wTx+b,
其中 w = ( w 1 ; w 2 ; . . . ; w d ) \bm{w}=(w_1;w_2;...;w_d) w=(w1;w2;...;wd).在 w \bm{w} w b b b 学得之后,模型就可以确定了。

一元线性回归

给定数据集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } D=\{(\bm{x}_1,y_1),(\bm{x}_2,y_2),...,(\bm{x}_m,y_m)\} D={ (x1,y1),(x2,y2),...,(xm,ym)},其中 x i = ( x i 1 ; x i 2 ; . . . ; x i d ) , y i ∈ R \bm{x_i}=(x_{i1};x_{i2};...;x_{id}),y_i \in \mathbb{R} xi=(xi1;xi2;...;xid),yiR .“线性回归”(linear regression)试图学得一个线性模型以尽可能准确地预测实值输出标记。

d = 1 d=1 d=1时, w , b w,b w,b 为单个的数时为一元线性回归。

线性回归试图学得:
f ( x i ) = w x i + b , 使 得 f ( x i ) ≈ y i f(x_i)=wx_i+b,使得f(x_i)\approx y_i f(xi)=wxi+b,使f(xi)yi

通过学习得到 w , b w,b w,b
( w ∗ , b ∗ ) = arg min ⁡ ( w , b ) ∑ i = 1 m ( f ( x i ) − y i ) 2 = arg min ⁡ ( w , b ) ∑ i = 1 m ( y i − w x i − b ) 2 \begin{aligned} (w^*,b^*)&=\argmin_{(w,b)}\sum_{i=1}^m(f(x_i)-y_i)^2\\ &=\argmin_{(w,b)}\sum_{i=1}^m(y_i-wx_i-b)^2 \end{aligned} (w,b)=(w,b)argmini=1m(f(xi)yi)2=(w,b)argmini=1m(yiwxib)2

目标函数求解:该过程(即:求解 w , b w,b w,b 使 E ( w , b ) = ∑ i = 1 m ( y i − w x i − b ) 2 E_{(w,b)}=\sum_{i=1}^m(y_i-wx_i-b)^2 E(w,b)=i=1m(yiwxib)2)也称对线性回归模型的对最小二乘法“参数估计”。(parameter estimation)

因为,在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线的欧式距离之和最小。

因此,将 E ( w , b ) E_{(w,b)} E(w,b) 分别对 w , b w,b w,b 求偏导:
α E ( w , b ) α w = α ∑ i = 1 m ( f ( x i ) − y i ) 2 α w = [ w x 1 + b − y 1 ] 2 + [ w x 2 + b − y 2 ] 2 + . . . + [ w x m + b − y m ] 2 α w = 2 ( w x 1 + b − y 1 ) x 1 + 2 ( w x 2 + b − y 2 ) x 2 + . . . + 2 ( w x i + b − y i ) x i = 2 ( w ∑ i = 1 m x i 2 − ∑ i = 1 m ( y i − b ) x i ) \begin{aligned} \frac{\alpha E_{(w,b)}}{\alpha w}&= \frac{\alpha \sum_{i=1}^m(f(x_i)-y_i)^2}{\alpha w} \\ &=\frac{[wx_1+b-y_1]^2+[wx_2+b-y_2]^2+...+[wx_m+b-y_m]^2}{\alpha w} \\ &=2(wx_1+b-y_1)x_1+2(wx_2+b-y_2)x_2+...+2(wx_i+b-y_i)x_i\\ &=2\left( w\sum_{i=1}^mx_i^2-\sum_{i=1}^m(y_i-b)x_i\right) \end{aligned} αwαE(w,b)=αwαi=1m(f(xi)yi)2=αw[wx1+by1]2+[wx2+by2]2+...+[wxm+bym]2=2(wx1+by1)x1+2(wx2+by2)x2+...+2(wxi+byi)xi=2(wi=1mxi2i=1m(yib)xi)

α E ( w , b ) α b = α ∑ i = 1 m ( f ( x i ) − y i ) 2 α b = [ w x 1 + b − y 1 ] 2 + [ w x 2 + b − y 2 ] 2 + . . . + [ w x m + b − y m ] 2 α b = 2 ( w x 1 + b − y 1 ) + 2 ( w x 2 + b − y 2 ) + . . . + 2 ( w x i + b − y i ) = 2 ( m b − ∑ i = 1 m ( y i − w x i ) ) \begin{aligned} \frac{\alpha E_{(w,b)}}{\alpha b}&= \frac{\alpha \sum_{i=1}^m(f(x_i)-y_i)^2}{\alpha b} \\ &=\frac{[wx_1+b-y_1]^2+[wx_2+b-y_2]^2+...+[wx_m+b-y_m]^2}{\alpha b} \\ &=2(wx_1+b-y_1)+2(wx_2+b-y_2)+...+2(wx_i+b-y_i)\\ &=2\left( mb-\sum_{i=1}^m(y_i-wx_i)\right) \end{aligned} αbαE(w,b)=αbαi=1m(f(xi)yi)2=αb[wx1+by1]2+[wx2+by2]2+...+[wxm+bym]2=2(wx1+by1)+2(wx2+by2)+...+2(wxi+byi)=2(mbi=1m(yiwxi))

令偏导为0,所以解得 w , b w,b w,b 为:
w = ∑ i = 1 m y i ( x i − x ‾ ) ∑ i = 1 m x i 2 − 1 m ( ∑ i = 1 m x i ) 2 w=\frac{\sum_{i=1}^my_i(x_i-\overline{x})}{\sum_{i=1}^mx_i^2-\frac{1}{m}\left(\sum_{i=1}^mx_i \right)^2} w=i=1mxi2m1(i=1mxi)2i=1myi(xix)

b = 1 m ∑ m = 1 m ( y i − w x i ) b=\frac{1}{m}\sum_{m=1}^m(y_i-wx_i) b=m1m=1m(yiwxi)

其中 x ‾ = 1 m ∑ i = 1 m x i \overline{x}=\frac{1}{m}\sum_{i=1}^mx_i x=m1i=1mxi x x x 的均值。

猜你喜欢

转载自blog.csdn.net/Naruto_8/article/details/120950077