初谈回归,我们不禁要回忆到数理统计中学到的回归概念,“https://baike.baidu.com/item/%E5%9B%9E%E5%BD%92/10412815?fr=aladdin”这是百度百科给出的对于回归的一些概念。
在机器学习算法中,回归是所有算法中最先涉及和学习的,回归分为单变量线性回归和多变量回归,也即是之前数学中学到的一元回归和多元回归。机器学习中所涉及的回归一般是线性回归。线性回归需要一个线性模型,属于监督学习,因此方法和监督学习应该是一样的,先给定一个训练集,根据这个训练集学习出一个线性函数,然后测试这个函数是否足够拟合训练集数据,然后挑选出最好的线性函数。
回归分析的分类:
1.线性回归分析
一元线性回归
多元线性回归
2.非线性回归分析
逻辑回归
神经网络
回归分析的步骤:
1.根据预测目标,确定自变量与因变量;
2.绘制散点图,确定回归分析模型;
3.估计模型参数,建立回归模型;
4.对回归模型进行检验;
5.利用回归模型进行预测。
下面主要探讨线性回归。
在进行线性回归模型的建立时,我们需要首先判断给出的数据集是否适合做回归。一般可以使用散点图做出初步判断,看散点的分布是否符合线性分布。
单变量线性回归
以上是单变量线性回归的模型,其中θ称为参数,x称为特征。
回归的目的是预测数值型数据的目标值。模型的创建并不是最终的目的也不是最重要的事情,其中最重要的事情是求参,最终的目的是进行预测。
回归进行预测的方法:回归属于有监督学习算法,首先根据给定的一组数据集,求出参数的值,然后就得出了线性回归模型,然后据此模型进行预测。
回归模型也许会得到好几个,我们需要从中选择出最好的,这里的最好就是说要拟合的够好,但是必须注意不要出现欠拟合和过拟合的问题。那么,如何做好最好的呢?一个最常用的方法就是寻找误差最小的w,误差可以用预测的y值和真实的y值的差值表示,由于正负差值的差异,可以选用平方误差,也就是对预测的y值和真实的y值的平方求和,用矩阵可表示为:(y - xw)T(y - xw),现在问题就转换为寻找使得上述矩阵值最小的w,对w求导为:xT(y - xw),令其为0,解得:w = (xTx)-1xTy。
多变量线性回归
y(x,w)=w0x0+w1x1+w2x2+...+wnxn
参考链接:
https://www.cnblogs.com/ybjourney/p/4841366.html
https://blog.csdn.net/program_developer/article/details/79113765