1、基本形式
对于d个属性描述的示例,其中
是x在第i个属性上的取值。线程模型是通过属性的线性组合来进行预测的函数,即
向量形式表示为
其中
2、线性回归
给定数据集,其中
,
一元线程回归:
,使得
通过均方误差来确定w和b,试图让均方误差最小化。
求解w和b使最小化过程,称为线性回归模型的最小二乘"参数估计",可以对w和b求导,得到 :
令导数为0,有:
更一般的情形是数据集D,样本由d个属性描述。
,使得
,也称为多元线性回归
同上使用最小二乘法。用,数据集 D用
矩阵
表示,其中每行对应一个示例,该行前d个元素对应于示例的d个属性,最后一个元素恒置为1。即
y用列向量表示为:
,则最小二乘表示有
令,对
求导。
,对
求导
由矩阵微分公式,
可知
令上式等于0,有
广义线性模型:
3、对数几率回归
单位阶跃函数:
对数几率函数:
是 Sigmoid函数,将z值转化为一个接近0或1的y值。将对数几率函数作为代入广义线性模型:
有
将y视为样本x作为正例的可能性,1-y作为其反例可能性,两者的比值
称为几率。对几率取对数则得到对数几率。
将y视为类后验概率估计,则
对数似然估计为
令,
,则
令,
,由于y等于0或者1,有:
,其中
,
由于或者1,有
综合可得:
参考资料: