1. 线性回归模型

给定一系列的 $(x_i,y_i)$ ，求 $w$ 和 $b$ ，使得 $wx+b$ 与 $y$ 尽量接近。因为 $y = wx+b$ 是线性的超平面，因此这个模型称为线性回归模型。若拟合函数为 $y = e^{wx+b}$ ，则称为对数线性回归。更一般的，若 $g(y) = wx+b$ ，则称之为广义线性模型， $g$ 称为联系函数。
线性回归模型的目标函数一般是最小化均方误差：min $\Sigma _i(y_i-(wx_i+b))^2$

2. 对数几率回归/逻辑回归

首先定义“对数似然”函数： $p(x)=1/(1+e^{-(wx+b)})$ ， $f$ 可以理解为样本等于1的概率， $1-f$ 为样本等于0的概率。目标函数为最大化“对数似然”：
max $\Sigma _i(y_ip(x_i)+(1-y_i)(1-p(x_i)))$
这样就可以用回归模型来处理分类问题了。这个模型叫做“对数几率回归”（也叫“逻辑回归”），虽然叫回归，但实际是做二分类的。

3. 线性判别分析

线性判别分析（LDA），也称Fisher判别分析，原理是寻找超平面y=wx+b，使得投影到这个平面上的两个类别的数据，同类尽量接近、异类尽量远离。
定义类内散度矩阵： $S_w=||x_0-u_0||^2+||x_1-u_1||^2$
类间散度矩阵： $S_b=||u_0-u_1||^2$
其中 $u_0,u_1$ 分别是 $x_0,x_1$ 的均值向量。
则目标函数为max $J=(w^TS_bw)/(w^TS_ww)$

4. 多分类学习

多分类问题可以由二分类问题推广得到，主要有3种：
1. 一对一：将N个类别两两配对，分别做二分类。
2. 一对其余：将N个类别和剩下的其余类别分别配对，做二分类。
3. 多对多：需要进行编码，每次是多个类别和其余类别分别配对做二分类。

5. 类别不平衡

令 $m^+$ 为正例数目， $m^-$ 为反例数目，则判别的阈值设置为 $m^+/(m^++m^-)$ 。
另外还有两种方法：
欠采样：去除样本，使正反例数目接近。
过采样：增加样本，使正反例数目接近。

线性回归和线性分类核心内容

1. 线性回归模型

2. 对数几率回归/逻辑回归

3. 线性判别分析

4. 多分类学习

5. 类别不平衡

猜你喜欢