1. 线性回归模型
给定一系列的
,求
和
,使得
与
尽量接近。因为
是线性的超平面,因此这个模型称为线性回归模型。若拟合函数为
,则称为对数线性回归。更一般的,若
,则称之为广义线性模型,
称为联系函数。
线性回归模型的目标函数一般是最小化均方误差:min
2. 对数几率回归/逻辑回归
首先定义“对数似然”函数:
,
可以理解为样本等于1的概率,
为样本等于0的概率。目标函数为最大化“对数似然”:
max
这样就可以用回归模型来处理分类问题了。这个模型叫做“对数几率回归”(也叫“逻辑回归”),虽然叫回归,但实际是做二分类的。
3. 线性判别分析
线性判别分析(LDA),也称Fisher判别分析,原理是寻找超平面y=wx+b,使得投影到这个平面上的两个类别的数据,同类尽量接近、异类尽量远离。
定义类内散度矩阵:
类间散度矩阵:
其中
分别是
的均值向量。
则目标函数为max
4. 多分类学习
多分类问题可以由二分类问题推广得到,主要有3种:
1. 一对一:将N个类别两两配对,分别做二分类。
2. 一对其余:将N个类别和剩下的其余类别分别配对,做二分类。
3. 多对多:需要进行编码,每次是多个类别和其余类别分别配对做二分类。
5. 类别不平衡
令
为正例数目,
为反例数目,则判别的阈值设置为
。
另外还有两种方法:
欠采样:去除样本,使正反例数目接近。
过采样:增加样本,使正反例数目接近。