本帖为学习笔记帖,参照b站解读西瓜书、西瓜书来记的,如有漏错,欢迎批评指正。
基本形式(西瓜书上的)
给定由 d d d 个属性描述的示例 x = ( x 1 , x 2 , . . . , x d ) x=(x_1,x_2,...,x_d) x=(x1,x2,...,xd),其中 x i x_i xi 是 x x x 在第 i i i 个属性上的取值,线性模型(Linear model)试图学得一个属性的线性组合来进行预测函数,即
f ( x ) = w 1 x 1 + w 2 x 2 + . . . + w d x d + b f(x)=w_1x_1+w_2x_2+...+w_dx_d+b f(x)=w1x1+w2x2+...+wdxd+b
写成向量形式为:
f ( x ) = w T x + b f(x)=\bm{w}^\mathrm{T}\bm{x}+b f(x)=wTx+b,
其中 w = ( w 1 ; w 2 ; . . . ; w d ) \bm{w}=(w_1;w_2;...;w_d) w=(w1;w2;...;wd).在 w \bm{w} w 和 b b b 学得之后,模型就可以确定了。
一元线性回归
给定数据集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } D=\{(\bm{x}_1,y_1),(\bm{x}_2,y_2),...,(\bm{x}_m,y_m)\} D={ (x1,y1),(x2,y2),...,(xm,ym)},其中 x i = ( x i 1 ; x i 2 ; . . . ; x i d ) , y i ∈ R \bm{x_i}=(x_{i1};x_{i2};...;x_{id}),y_i \in \mathbb{R} xi=(xi1;xi2;...;xid),yi∈R .“线性回归”(linear regression)试图学得一个线性模型以尽可能准确地预测实值输出标记。
当 d = 1 d=1 d=1时, w , b w,b w,b 为单个的数时为一元线性回归。
线性回归试图学得:
f ( x i ) = w x i + b , 使 得 f ( x i ) ≈ y i f(x_i)=wx_i+b,使得f(x_i)\approx y_i f(xi)=wxi+b,使得f(xi)≈yi
通过学习得到 w , b w,b w,b :
( w ∗ , b ∗ ) = arg min ( w , b ) ∑ i = 1 m ( f ( x i ) − y i ) 2 = arg min ( w , b ) ∑ i = 1 m ( y i − w x i − b ) 2 \begin{aligned} (w^*,b^*)&=\argmin_{(w,b)}\sum_{i=1}^m(f(x_i)-y_i)^2\\ &=\argmin_{(w,b)}\sum_{i=1}^m(y_i-wx_i-b)^2 \end{aligned} (w∗,b∗)=(w,b)argmini=1∑m(f(xi)−yi)2=(w,b)argmini=1∑m(yi−wxi−b)2
目标函数求解:该过程(即:求解 w , b w,b w,b 使 E ( w , b ) = ∑ i = 1 m ( y i − w x i − b ) 2 E_{(w,b)}=\sum_{i=1}^m(y_i-wx_i-b)^2 E(w,b)=∑i=1m(yi−wxi−b)2)也称对线性回归模型的对最小二乘法“参数估计”。(parameter estimation)
因为,在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线的欧式距离之和最小。
因此,将 E ( w , b ) E_{(w,b)} E(w,b) 分别对 w , b w,b w,b 求偏导:
α E ( w , b ) α w = α ∑ i = 1 m ( f ( x i ) − y i ) 2 α w = [ w x 1 + b − y 1 ] 2 + [ w x 2 + b − y 2 ] 2 + . . . + [ w x m + b − y m ] 2 α w = 2 ( w x 1 + b − y 1 ) x 1 + 2 ( w x 2 + b − y 2 ) x 2 + . . . + 2 ( w x i + b − y i ) x i = 2 ( w ∑ i = 1 m x i 2 − ∑ i = 1 m ( y i − b ) x i ) \begin{aligned} \frac{\alpha E_{(w,b)}}{\alpha w}&= \frac{\alpha \sum_{i=1}^m(f(x_i)-y_i)^2}{\alpha w} \\ &=\frac{[wx_1+b-y_1]^2+[wx_2+b-y_2]^2+...+[wx_m+b-y_m]^2}{\alpha w} \\ &=2(wx_1+b-y_1)x_1+2(wx_2+b-y_2)x_2+...+2(wx_i+b-y_i)x_i\\ &=2\left( w\sum_{i=1}^mx_i^2-\sum_{i=1}^m(y_i-b)x_i\right) \end{aligned} αwαE(w,b)=αwα∑i=1m(f(xi)−yi)2=αw[wx1+b−y1]2+[wx2+b−y2]2+...+[wxm+b−ym]2=2(wx1+b−y1)x1+2(wx2+b−y2)x2+...+2(wxi+b−yi)xi=2(wi=1∑mxi2−i=1∑m(yi−b)xi)
α E ( w , b ) α b = α ∑ i = 1 m ( f ( x i ) − y i ) 2 α b = [ w x 1 + b − y 1 ] 2 + [ w x 2 + b − y 2 ] 2 + . . . + [ w x m + b − y m ] 2 α b = 2 ( w x 1 + b − y 1 ) + 2 ( w x 2 + b − y 2 ) + . . . + 2 ( w x i + b − y i ) = 2 ( m b − ∑ i = 1 m ( y i − w x i ) ) \begin{aligned} \frac{\alpha E_{(w,b)}}{\alpha b}&= \frac{\alpha \sum_{i=1}^m(f(x_i)-y_i)^2}{\alpha b} \\ &=\frac{[wx_1+b-y_1]^2+[wx_2+b-y_2]^2+...+[wx_m+b-y_m]^2}{\alpha b} \\ &=2(wx_1+b-y_1)+2(wx_2+b-y_2)+...+2(wx_i+b-y_i)\\ &=2\left( mb-\sum_{i=1}^m(y_i-wx_i)\right) \end{aligned} αbαE(w,b)=αbα∑i=1m(f(xi)−yi)2=αb[wx1+b−y1]2+[wx2+b−y2]2+...+[wxm+b−ym]2=2(wx1+b−y1)+2(wx2+b−y2)+...+2(wxi+b−yi)=2(mb−i=1∑m(yi−wxi))
令偏导为0,所以解得 w , b w,b w,b 为:
w = ∑ i = 1 m y i ( x i − x ‾ ) ∑ i = 1 m x i 2 − 1 m ( ∑ i = 1 m x i ) 2 w=\frac{\sum_{i=1}^my_i(x_i-\overline{x})}{\sum_{i=1}^mx_i^2-\frac{1}{m}\left(\sum_{i=1}^mx_i \right)^2} w=∑i=1mxi2−m1(∑i=1mxi)2∑i=1myi(xi−x)
b = 1 m ∑ m = 1 m ( y i − w x i ) b=\frac{1}{m}\sum_{m=1}^m(y_i-wx_i) b=m1m=1∑m(yi−wxi)
其中 x ‾ = 1 m ∑ i = 1 m x i \overline{x}=\frac{1}{m}\sum_{i=1}^mx_i x=m1∑i=1mxi 为 x x x 的均值。