深度学习之最大似然估计、最小二乘、梯度下降(二)

一、机器学习中的最大似然、最小二乘、梯度下降

  最小二乘和极大似然估计是目标函数,梯度下降是优化算法。机器学习的核心是一个模型,一个损失函数loss fuction,加上一个优化的算法。一个目标函数可以用不同的优化算法,不同的目标函数也可以用相同的优化算法。所以最小二乘和极大似然根本不是算法,和梯度下降毫无可比性。

  PS:最小二乘和极大似然也不是对立的。最小二乘是从函数形式上来看的,极大似然是从概率意义上来看的。事实上,最小二乘可以由高斯噪声假设+极大似然估计推导出来。当然极大似然估计还可以推导出其他的loss function,比如logistic回归中,loss function是交叉熵.

  最大似然(MLE),最小二乘都是构造目标函数的方法,构造出这个目标函数后,我们可以用各种优化方法来找到它的极值,这些优化方法中,有一类是使用函数的梯度信息,包括一阶的方法,例如梯度下降,以及二阶的方法,例如牛顿法等。 

  对于线性回归问题,它的模型是 p(y|x) = N(w^Tx, \sigma^2),我们采用最大似然来构造一个目标函数,最后用梯度下降来找到目标函数的最值。当然,对于这个问题,我们也可以不用梯度下降,直接用向量的投影来直接算出最优解的表达式(最小二乘)。

  实际上可以这样理解,极大似然函数(构造损失函数)+梯度下降可以解决所有回归问题,但多用于logist回归、最小二乘法直接用向量计算最有接,多用于非Logist的回归。(最小二乘得到的损失函数也可以用梯度下降算法求解)

 为什么logist回归不用最小二乘?

  首先要知道最小二乘法是使得损失函数的导数最小化,计算的是导数为0的凹点。

  

文章参考最小二乘、极大似然、梯度下降法最小二乘、极大似然、梯度下降有何区别

二、最大似然函数

  似然函数与概率非常类似但又有根本的区别,概率为在某种条件(参数)下预测某事件发生的可能性;而似然函数与之相反为已知该事件的情况下推测出该事件发生时的条件(参数);所以似然估计也称为参数估计。

  似然函数L为在给定结果y的情况下参数w的取值情况,概率函数L为知道了参数w求得y的取值

  线性回归和分类回归,都可以由最大似然估计法推导而来,说明了最大似然估计法是一种更普适的描述模型匹配的方法。

  详情请见 机器学习 --- 1. 线性回归与分类, 解决与区别机器学习 --- 2. 从最大似然再看线性回归

三、最小二乘法和梯度下降算法

  对于一元线性回归模型, 假设从总体中获取了n组观察值(X1,Y1),(X2,Y2), …,(Xn,Yn)。对于平面中的这n个点,可以使用无数条曲线来拟合。要求样本回归函数尽可能好地拟合这组值。综合起来看,这条直线处于样本数据的中心位置最合理。 选择最佳拟合曲线的标准可以确定为:使总的拟合误差(即总残差)达到最小。有以下三个标准可以选择:

        (1)用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。
        (2)用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。
        (3)最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外,得到的估计量还具有优良特性。这种方法对异常值非常敏感。

  最小二乘法的目标公式:

  最小二乘法的求解结果

  

最小二乘详解

最小二乘、梯度下降算法介绍

最小二乘、梯度下降的关系

猜你喜欢

转载自blog.csdn.net/m0_37565948/article/details/81353305
今日推荐