正则逻辑回归

在介绍正则逻辑回归之前，先来介绍一下普通的逻辑回归。

1.逻辑回归

逻辑回归虽然叫回归，但其实是分类模型，同时也是一种判别式模型。(不理解概念的同学可以查看：判别式模型和生成式模型的区别）。

假设现在有 $w_1,w_2,...,w_k$ 一共 $K$ 种类别，X为描述样本个体的特征向量， $X=(X_1,X_2,...,X_p)^T$ 。观测到一组带标签的样本为： ${(x_1,z_1),(x_2,z_2)...(x_n,z_n)}$ ，每一个 $x_i$ 都包含p个特征值，并且：
$\begin{aligned} z_{ik}= \left\{ \begin{array}{lr} 1, 如果x_i\in w_k&\\ &\\ 0,如果x_i\notin w_k \end{array} \right. \end{aligned}$

那么 $Z_i$ 满足多项式分布： $Z_i$ ~ $M(p_1(x_i),...,p_k(x_i))$ 且
$\begin{aligned} p_l(x_i)=p(w_l|x_i)=p(w_l|x_i;\beta), \forall l=1,...,K \end{aligned}$

2.参数估计

我们的目标就是估算后验概率 $P(w_k|x)$ 。使用到的模型是：
$\begin{aligned} &P(w_k|x)=\frac{exp(\beta_k^Tx)}{1+\sum_{l=1}^{K-1}exp(\beta_l^Tx)}, \forall k=1,...,K-1 \\ &P(w_k|x)=\frac{1}{1+\sum_{l=1}^{K-1}exp(\beta_l^Tx)} , \forall k=K \end{aligned}$

我们的目标变成对于每一个类别 $w_k$ ，计算它的参数 $\beta_k^T$ 。令 $\beta =(\beta_1,...,\beta_K)^T$ ，我们可以通过最大似然估计法来估计 $\beta$ 的值。

$\begin{aligned} L(\beta|(x_i,z_i)_{i=1,2,...,n})=\prod_{i=1}^{n}\prod_{k=1}^{K}(p_k(x_i))^{z_{ik}} \end{aligned}$

3.二分类问题

从简单的二分类问题入手。

假设现在有 $w_1,w_2$ 一共 $2$ 种类别，X为描述样本个体的特征向量， $X=(X_1,X_2,...,X_p)^T$ 。观测到一组带标签的样本为： ${(x_1,z_1),(x_2,z_2)...(x_n,z_n)}$ ，每一个 $x_i$ 都包含p个特征值，并且：
$\begin{aligned} z_{ik}= \left\{ \begin{array}{lr} 1, 如果x_i\in w_1&\\ &\\ 0,如果x_i\in w_2 \end{array} \right. \end{aligned}$

扫描二维码关注公众号，回复： 11945790 查看本文章

那么 $Z_i$ 满足二项分布： $Z_i$ ~ $B(p_1(x_i))$ 且
$\begin{aligned} &p_{1}(x_i)=p(w_1|x_i)=p(w_1|x_i;\beta)=\frac{exp(\beta^Tx)}{1+exp(\beta^Tx)} \\ &p_2(x_i)=p(w_2|x_i)=1-p_1(x_i)=\frac{1}{1+exp(\beta^Tx)} \end{aligned}$
因此，我们只有一个参数向量 $\beta$ 需要估计，使用最大似然估计法:
( $p_{1}(x_i)$ 简写为 $p(x_i)$ )

$\begin{aligned} L(\beta|data)&=\prod_{i=1}^{n}p(x_i)^{z_i}*(1-p(x_i))^{1-z_i} \\ lnL(\beta|data)&=\sum_{i=1}^n(z_i*lnp(x_i)+(1-z_i)*ln(1-p(x_i))) \\ \because p(x_i)&=\frac{exp(\beta^Tx)}{1+exp(\beta^Tx)} \\ \therefore \frac{\partial p(x_i)}{\partial \beta}&=\frac{x_iexp(\beta^Tx_i)}{(1+exp(\beta^Tx))^2}=x_ip(x_i)(1-p(x_i)) \\ \therefore \frac{\partial lnL(\beta|data)}{\partial \beta}&=\sum_{i=1}^n(z_i *\frac{p'(x_i)}{p(x_i)}+(1-z_i)*\frac{-p'(x_i)}{1-p(x_i)}) \\ &=\sum_{i=1}^n(z_i*x_i(1-p(x_i))-(1-z_i)*x_ip(x_i)) \\ &=\sum_{i=1}^nx_i(z_i-p(x_i)) \\ &= X^T(Z-P) \quad with \ X= \begin{bmatrix} x_{11} & x_{12} & ... & x_{1p} \\ ... & ... & ...& ... \\ x_{n1} & x_{n2} & ...& x_{np} \end{bmatrix} , Z= \begin{bmatrix} z_1 \\ ... & \\ z_n \end{bmatrix} , P=\begin{bmatrix} p(x_1) \\ ... & \\ p(x_n) \end{bmatrix} \\ \end{aligned}$
因为 $\hat{\beta}=\mathop{\arg\max}_{\beta}lnL(\beta|data)$ ，要使 $\frac{\partial lnL(\beta|data)}{\partial \beta}=0$ ，则 $Z - P = 0$ ，但是由于 $p(x_i)$ 的公式是非线性的，因此我们无法直接求出 $\beta$ 的值。因此使用梯度上升的数值优化方法。-梯度和梯度上升/下降法

从 $\beta_0$ 开始，对于 $t = 0, 1, 2 . . .$ ,计算
$P_t=\begin{bmatrix} p(x_1|\beta_t) \\ ... & \\ p(x_n|\beta_t) \end{bmatrix}$ $\nabla lnL_t=X^T(Z-P_t)$ $H_t=-X^TW_tX \quad with \quad W_t=diag(P_t(1-P_t))$ $\beta_{t+1}=\beta_t-(H_t)^{-1}\nabla lnL_t=\beta_t+(X^TW_tX)^{-1}X^T(Z-P_t)$
在计算出参数 $\beta$ 的取值后，对于另一给定的 $x$ ,如果算出 $p(w_1|x)=0.6$ ，则表示有 $60\%$ 的机率 $x$ 属于 $w_1$ 类别，有 $40\%$ 的机率 $x$ 属于 $w_2$ 类别，那么将预测 $x$ 属于 $w_1$ 类别。

4.正则化

正则化的目的是避免过拟合的情况。

方法一：给 $\beta$ 设置一个先验概率，例如正态分布 $\beta$ ~ $N(0,\lambda^{-1}I_{dp})$ 。
$\Pi (\beta)=(2\pi)^{(-p/2)}exp(-\frac{\lambda}{2}\beta^T\beta)$
如果 $\lambda$ 的值很小，那么正态分布的方差会很大， $\beta$ 的取值会有很大的可能偏离0。

根据贝叶斯定理，我们可以得出：
$\Pi (\beta|(x_i,z_i),\lambda)=lnL(\beta|-)+ln\Pi(\beta) \propto \sum_{i=1}^n(z_i*lnp(x_i)+(1-z_i)*ln(1-p(x_i))) -\frac{\lambda}{2}||\beta||^2$ 和之前的式子比，最后一项 $-\frac{\lambda}{2}||\beta||^2$ 是一个惩罚项。

方法二：给 $\beta$ 设置一个Laplace先验概率，最后的结果会是： $\Pi (\beta|(x_i,z_i),\lambda)=lnL(\beta|-)-\lambda\sum_{j=0}^p|\beta_j|$
最后一项仍旧是一个惩罚项。