线性回归可以说是机器学习中最基本的问题类型了,这里就对线性回归的原理和算法做一个小结。
1. 线性回归的模型函数和损失函数
线性回归遇到的问题一般是这样的。我们有m个样本,每个样本对应于n维特征和一个结果输出,如下:
我们的问题是,对于一个新的
对于n维特征的样本数据,如果我们决定使用线性回归,那么对应的模型是这样的:
进一步用矩阵形式表达更加简洁如下:
其中, 假设函数
得到了模型,我们需要求出需要的损失函数,一般线性回归我们用均方误差作为损失函数。损失函数的代数法表示如下:
进一步用矩阵形式表达损失函数:
由于矩阵法表达比较的简洁,后面我们将统一采用矩阵方式表达模型函数和损失函数。
2. 线性回归的算法
对于线性回归的损失函数
如果采用梯度下降法,则
通过若干次迭代后,我们可以得到最终的
如果采用最小二乘法,则
当然线性回归,还有其他的常用算法,比如牛顿法和拟牛顿法,这里不详细描述。
3. 线性回归的推广:多项式回归
回到我们开始的线性模型,
我们令
可以发现,我们又重新回到了线性回归,这是一个五元线性回归,可以用线性回归的方法来完成算法。对于每个二元样本特征
4. 线性回归的推广:广义线性回归
在上一节的线性回归的推广中,我们对样本特征端做了推广,这里我们对于特征y做推广。比如我们的输出
这样对与每个样本的输入y,我们用 lny去对应, 从而仍然可以用线性回归的算法去处理这个问题。我们把 Iny一般化,假设这个函数是单调可微函数
这个函数
5. 线性回归的正则化
为了防止模型的过拟合,我们在建立线性模型的时候经常需要加入正则化项。一般有L1正则化和L2正则化。
线性回归的L1正则化通常称为Lasso回归,它和一般线性回归的区别是在损失函数上增加了一个L1正则化的项,L1正则化的项有一个常数系数
其中n为样本个数,
Lasso回归可以使得一些特征的系数变小,甚至还是一些绝对值较小的系数直接变为0。增强模型的泛化能力。
Lasso回归的求解办法一般有坐标轴下降法(coordinate descent)和最小角回归法( Least Angle Regression),由于它们比较复杂,在我的这篇文章单独讲述: 线程回归的正则化-Lasso回归小结
线性回归的L2正则化通常称为Ridge回归,它和一般线性回归的区别是在损失函数上增加了一个L2正则化的项,和Lasso回归的区别是Ridge回归的正则化项是L2范数,而Lasso回归的正则化项是L1范数。具体Ridge回归的损失函数表达式如下:
其中
Ridge回归在不抛弃任何一个特征的情况下,缩小了回归系数,使得模型相对而言比较的稳定,但和Lasso回归比,这会使得模型的特征留的特别多,模型解释性差。
Ridge回归的求解比较简单,一般用最小二乘法。这里给出用最小二乘法的矩阵推导形式,和普通线性回归类似。
令
整理即可得到最后的
其中E为单位矩阵。
除了上面这两种常见的线性回归正则化,还有一些其他的线性回归正则化算法,区别主要就在于正则化项的不同,和损失函数的优化方式不同,这里就不累述了。
线性回归可以说是机器学习中最基本的问题类型了,这里就对线性回归的原理和算法做一个小结。
1. 线性回归的模型函数和损失函数
线性回归遇到的问题一般是这样的。我们有m个样本,每个样本对应于n维特征和一个结果输出,如下:
我们的问题是,对于一个新的
对于n维特征的样本数据,如果我们决定使用线性回归,那么对应的模型是这样的:
进一步用矩阵形式表达更加简洁如下:
其中, 假设函数
得到了模型,我们需要求出需要的损失函数,一般线性回归我们用均方误差作为损失函数。损失函数的代数法表示如下:
进一步用矩阵形式表达损失函数:
由于矩阵法表达比较的简洁,后面我们将统一采用矩阵方式表达模型函数和损失函数。
2. 线性回归的算法
对于线性回归的损失函数
如果采用梯度下降法,则
通过若干次迭代后,我们可以得到最终的
如果采用最小二乘法,则
当然线性回归,还有其他的常用算法,比如牛顿法和拟牛顿法,这里不详细描述。
3. 线性回归的推广:多项式回归
回到我们开始的线性模型,
我们令
可以发现,我们又重新回到了线性回归,这是一个五元线性回归,可以用线性回归的方法来完成算法。对于每个二元样本特征
4. 线性回归的推广:广义线性回归
在上一节的线性回归的推广中,我们对样本特征端做了推广,这里我们对于特征y做推广。比如我们的输出
这样对与每个样本的输入y,我们用 lny去对应, 从而仍然可以用线性回归的算法去处理这个问题。我们把 Iny一般化,假设这个函数是单调可微函数
这个函数
5. 线性回归的正则化
为了防止模型的过拟合,我们在建立线性模型的时候经常需要加入正则化项。一般有L1正则化和L2正则化。
线性回归的L1正则化通常称为Lasso回归,它和一般线性回归的区别是在损失函数上增加了一个L1正则化的项,L1正则化的项有一个常数系数
其中n为样本个数,
Lasso回归可以使得一些特征的系数变小,甚至还是一些绝对值较小的系数直接变为0。增强模型的泛化能力。
Lasso回归的求解办法一般有坐标轴下降法(coordinate descent)和最小角回归法( Least Angle Regression),由于它们比较复杂,在我的这篇文章单独讲述: 线程回归的正则化-Lasso回归小结
线性回归的L2正则化通常称为Ridge回归,它和一般线性回归的区别是在损失函数上增加了一个L2正则化的项,和Lasso回归的区别是Ridge回归的正则化项是L2范数,而Lasso回归的正则化项是L1范数。具体Ridge回归的损失函数表达式如下:
其中
Ridge回归在不抛弃任何一个特征的情况下,缩小了回归系数,使得模型相对而言比较的稳定,但和Lasso回归比,这会使得模型的特征留的特别多,模型解释性差。
Ridge回归的求解比较简单,一般用最小二乘法。这里给出用最小二乘法的矩阵推导形式,和普通线性回归类似。
令
整理即可得到最后的
其中E为单位矩阵。
除了上面这两种常见的线性回归正则化,还有一些其他的线性回归正则化算法,区别主要就在于正则化项的不同,和损失函数的优化方式不同,这里就不累述了。
这些理论知识其实很重要,但是我比较懒,所以转载的别人的,如有侵权,请及时通知我