线性模型基本形式
通过属性的线性组合来进行样本预测:
f ( x ) = w 1 x 1 + w 2 x 2 + . . . + w d x d + b f(x)=w_1x_1+w_2x_2+...+w_dx_d+b f(x)=w1x1+w2x2+...+wdxd+b
写成向量的形式:
f ( x ) = w T x + b f(x)=w^Tx+b f(x)=wTx+b
w 表示每个属性的权重,b 为偏置值,x 为样本向量,f(x) 为预测值
线性回归
回归分析是一种预测性的建模,研究自变量和因变量之间的关系
数学描述:
给定训练集 { ( x i , y i ) , i = 1 , . . . , n } , x ∈ R P , y i ∈ R \{(x_i, y_i),i=1,...,n\},x∈R^P,y_i∈R { (xi,yi),i=1,...,n},x∈RP,yi∈R
其中 y i = f ( x i ) + ϵ i y_i=f(x_i)+ϵ_i yi=f(xi)+ϵi
ϵ i ϵ_i ϵi 表示对 y i y_i yi 的预测误差
求解参数w和b
一般来说,我们要使预测值的均方误差最小,此时的参数就是我们要的参数
代价函数:
J ( w , b ) = ∑ i = 1 n ϵ i 2 = ∑ i = 1 n ( y i − f ( x i ) ) 2 J(w,b) =∑_{i=1}^nϵ^2_i=∑^n_{i=1}(y_i − f(x_i))^2 J(w,b)=i=1∑nϵi2=i=1∑n(yi−f(xi))2
线性回归模型使⽤最⼩⼆乘法进⾏训练。
最小二乘准则:各个训练样本的预测残差平方和最小。
通过最小化代价函数,求得 w 和 b:
[ w ∗ , b ∗ ] = a r g m i n J ( w , b ) [w^*,b^*]=argmin~J(w,b) [w∗,b∗]=argmin J(w,b)
常见的参数求解方法
1、解析法
对函数求偏导,再令偏导数为0(但可能会遇到矩阵不可逆的情况)。
适合样本较少的情况
2、数值优化法(梯度下降法等)
利用梯度下降等方法迭代求解
适合样本数量较多的情况
批量与小批量算法
1、批量梯度下降法:使⽤全部训练样本估计梯度进⾏训练,计算量大
2、小批量梯度下降法:使⽤部分训练样本估计梯度进⾏训练
3、随机梯度下降法:每次从固定训练集中抽取⼀个训练样本估计梯度进⾏训练。
正则化(参数范数惩罚)
通过对⽬标代价函数 J J J 添加⼀个参数范数惩罚,限制模型的学习能⼒。正则化后的总体代价函数为: J ′ ( w , b ) = J ( w , b ) + λ Ω ( w ) J^{'}(w,b)=J(w,b)+λΩ(w) J′(w,b)=J(w,b)+λΩ(w)
Ω(w) 表示惩罚项
L1正则化(套索回归):在代价函数中引入参数的一范数惩罚,
L2正则化(岭回归):在代价函数中引入参数的二范数惩罚,