线性回归和线性分类核心内容

1. 线性回归模型

给定一系列的 ( x i , y i ) ,求 w b ,使得 w x + b y 尽量接近。因为 y = w x + b 是线性的超平面,因此这个模型称为线性回归模型。若拟合函数为 y = e w x + b ,则称为对数线性回归。更一般的,若 g ( y ) = w x + b ,则称之为广义线性模型, g 称为联系函数。
线性回归模型的目标函数一般是最小化均方误差:min Σ i ( y i ( w x i + b ) ) 2

2. 对数几率回归/逻辑回归

首先定义“对数似然”函数: p ( x ) = 1 / ( 1 + e ( w x + b ) ) f 可以理解为样本等于1的概率, 1 f 为样本等于0的概率。目标函数为最大化“对数似然”:
max Σ i ( y i p ( x i ) + ( 1 y i ) ( 1 p ( x i ) ) )
这样就可以用回归模型来处理分类问题了。这个模型叫做“对数几率回归”(也叫“逻辑回归”),虽然叫回归,但实际是做二分类的。

3. 线性判别分析

线性判别分析(LDA),也称Fisher判别分析,原理是寻找超平面y=wx+b,使得投影到这个平面上的两个类别的数据,同类尽量接近、异类尽量远离。
定义类内散度矩阵: S w = | | x 0 u 0 | | 2 + | | x 1 u 1 | | 2
类间散度矩阵: S b = | | u 0 u 1 | | 2
其中 u 0 , u 1 分别是 x 0 , x 1 的均值向量。
则目标函数为max J = ( w T S b w ) / ( w T S w w )

4. 多分类学习

多分类问题可以由二分类问题推广得到,主要有3种:
1. 一对一:将N个类别两两配对,分别做二分类。
2. 一对其余:将N个类别和剩下的其余类别分别配对,做二分类。
3. 多对多:需要进行编码,每次是多个类别和其余类别分别配对做二分类。

5. 类别不平衡

m + 为正例数目, m 为反例数目,则判别的阈值设置为 m + / ( m + + m )
另外还有两种方法:
欠采样:去除样本,使正反例数目接近。
过采样:增加样本,使正反例数目接近。

猜你喜欢

转载自blog.csdn.net/kittyzc/article/details/81911504
今日推荐