逻辑回归及其衍生

1. 回顾(多元线性回归)

多元线性回归表达式: y ⃗ = X ω ⃗ + b ⃗ \vec{y} = X\vec{\omega} + \vec{b} y =Xω +b ,其中,对于变量y,每个值 y i y_i yi都是期望值(平均值)
用图形表示为:
在这里插入图片描述

2. sigmoid函数

多元线性回归,顾名思义,是一种回归模型,假如现在要做分类,如何用多元线性回归模型来做分类任务呢?一种简单通俗的想法如下:
在这里插入图片描述
假如上图中红色的x是需要拟合的数据,由于 y i y_i yi是一种期望值,因此拟合出的多元线性模型就是图中的紫色线。想要借此做分类,可以设置一个阈值,当大于某一阈值时,我们将其分类为1,小于某一阈值时,分类为0,该阈值即图中的绿色直线。
上述方法看似合理,但存在两个问题:

  1. 如果数据有异常值(特别大,或者特别小等),由于 y i y_i yi是期望值,其拟合的直线就会偏离,如下图所示(直线由原来的灰色箭头偏离为紫色直线):
    在这里插入图片描述
  2. 阈值选择问题:实际情况中,即使没有异常值,同一问题,不同的训练数据,选取的阈值都没有一个统一值,更何况不同问题及异常值数据问题。因此使用回归做分类阈值的选择是一个问题。

为了解决上述问题,引入了sigmoid函数,其公式如下: F ( x ) = e x p ( x ) 1 + e x p ( x ) F(x)=\frac{exp(x)}{1+exp(x)} F(x)=1+exp(x)exp(x)
其图形如下:
在这里插入图片描述
观察图形,可以发现,该图形y轴对称且当x小于0时,y小于0.5;x大于0时,y大于0.5。此外,还有一个重要特征,值域为[0,1]。

3. 逻辑回归

联系多元线性回归和sigmoid函数,假如将多元线性回归的预测值y(连续型)作为sigmoid的输入x,公式表达如下:
F ( x ) = e x p ( X ω ⃗ + b ⃗ ) 1 + e x p ( X ω ⃗ + b ⃗ ) F(x)=\frac{exp(X\vec{\omega} + \vec{b})}{1+exp(X\vec{\omega} + \vec{b})} F(x)=1+exp(Xω +b )exp(Xω +b )
通过这一波操作,经过多元线性回归,再经过sigmoid函数,最终结果y的取值范围为[0,1],且当回归预测值大于0时,最终结果y大于0.5,当回归预测值小于0时,最终结果y小于0.5。值域[0,1]这一特征,又和概率论中概率的取值范围一样。因此我们常说逻辑回归的结果就是类别的概率。当回归预测值大于0,最终结果大于0.5,我们认为就是类别1;当回归预测值小于0,最终结果小于0.5,我们认为就是类别0。这里的0.5就是上文中所提到的阈值。
实际问题中,阈值其实不一定是0.5,也可以自定义,比如0.4(具体为多少,需要实际情况实际分析,但在sklearn中默认是0.5。
此外,逻辑回归还有一种图形解释。在此之前,先回顾一个知识,直线方程表达方式:y=ax+b,或者ax+by+c=0。假如我们现在要研究的问题是是否出去玩与天气、温度的关系。在这个问题中,是否出去玩就是逻辑回归中的预测值y(或者说是F(x)),因变量为天气和温度,分别记做 x 1 , x 2 x_1,x_2 x1,x2。那么逻辑回归表达式为 F ( x ) = e x p ( a x 1 + b x 2 + c ) 1 + e x p ( a x 1 + b x 2 + c ) F(x)=\frac{exp(ax_1+bx_2+c)}{1+exp(ax_1+bx_2+c)} F(x)=1+exp(ax1+bx2+c)exp(ax1+bx2+c)对于exp中的 a x 1 + b x 2 + c ax_1+bx_2+c ax1+bx2+c我们把他看成是直线表达式ax+by+c=0的形式,我们知道对于直线ax+by+c=0,其直线上方的点大于0,直线下方的点小于0。回归到是否出去玩这个问题,将 x 1 , x 2 x_1,x_2 x1,x2分别看做x轴和y轴,也即 a x 1 + b x 2 + c ax_1+bx_2+c ax1+bx2+c可以看做一条直线,这个直线上方的点(点坐标 x 1 , x 2 x_1,x_2 x1,x2)大于0,大于0的值经过sigmoid结果大于0.5,假如阈值取0.5,那么直线上方的点就是类别1;同理直线下方的点就是类别0,因此,我们也说逻辑回归的分界线是一条直线。当自变量更多时(不止 x 1 , x 2 x_1,x_2 x1,x2),就是将直线投射到多维空间了(三维是个面)。
在这里插入图片描述
提到此,分界线也不一定是多元线性回归,还可以是圆等(sigmoid里面不是多元线性回归表达式,而是圆的表达式),下述会详细讲解。

4. 从数学的角度理解逻辑回归

当我们从数学角度学习多元线性回归时,是有很多假设条件的。假设条件如下:
1.

猜你喜欢

转载自blog.csdn.net/weixin_43178406/article/details/109037241