好早之前就发现逻辑斯蒂回归好像和朴素贝叶斯里面的后验概率公式还有最大似然、信息熵、交叉熵、伯努利分布、回归分析、几率（odds）等等有着千丝万缕CZFZ（错综复杂）、PSML（扑朔迷离）的关系。一直感觉逻辑斯蒂分布好像在很多地方都比较受宠并且有一些优良的性质经常被提及，不过又说不太清楚到底是怎么回事。

于是，我终于，去翻了教材讲义知乎CSDN之后，把这些东西给理清楚了!

这是一篇非非非非常长的文章
也可以戳下面链接看分节的版本哟~

细讲逻辑斯蒂回归与朴素贝叶斯、最大熵原理的爱恨交织（一）
细讲逻辑斯蒂回归与朴素贝叶斯、最大熵原理的爱恨交织（二）
细讲逻辑斯蒂回归与朴素贝叶斯、最大熵原理的爱恨交织（三）
细讲逻辑斯蒂回归与朴素贝叶斯、最大熵原理的爱恨交织（四）
细讲逻辑斯蒂回归与朴素贝叶斯、最大熵原理的爱恨交织（五）
细讲逻辑斯蒂回归与朴素贝叶斯、最大熵原理的爱恨交织（六）

长文预警 $\ \Downarrow$ ，ready？

第一节 —— 另辟蹊径从生态学入手

种群生态学考虑单一物种的生存模式和状态。其中，关于种群个体数量的变化，有所谓的马尔萨斯模型和逻辑斯蒂模型。

马尔萨斯模型
种群在某一状态下增长速率与种群个体数成正比。种群越大，增速越快。这比较好理解，例如一只羊一年生一只，那么三只羊一年就能生三只。种群个体数从一变成三增了三倍，种群数量的增速也变为了原来的三倍。把这个正比关系写成微分方程：y(t) 表示种群大小，它是时间 t 的函数。r 是比值系数：

$\frac{dy(t)}{dt} = r·y(t)$

解这个微分方程:

$\frac{1}{y} dy = rdt$

$\Rightarrow\int\frac{1}{y}dy = \int rdt$

$\Rightarrow logy = rt$

$\Rightarrow y = e^{rt}$

原来这就是我们熟悉的指数函数。

这个模型的不足在于，它只考虑了“生”的过程，没考虑“存”的实际情况。即便“生”的速率与种群大小成正比，但是能否存活还要受环境因素的制约。

逻辑斯蒂模型

种群大小增长到一定程度后，由于种内个体之间争夺有限的资源，存活率就会下降，导致种群个体数量的增长率下降。于是，有人对上述模型进行了改进，就有了（生态学中的）逻辑斯蒂模型。

这个模型依旧是用一个微分方程表示种群个体数量与增长速率的关系： $\frac{dy(t)}{dt} = ry(t)\times[1-\frac{y(t)}{K}]$
K可以解读为环境最大容纳量（capacity），r依旧是比值系数。解这个微分方程：
$dy = \frac{r}{K}·y·(K-y)dt$

$\frac{1}{Ky-y^2} dy = \frac{r}{K} dt$

$\int\frac{1}{Ky-y^2} dy = \int\frac{r}{K} dt$
$\frac{logy-log(K-y)}{K} = \frac{r}{K}·t \ \ \ \ (0<y<K)$

$log(\frac{y}{K-y}) = rt$

$\frac{y}{K-y} = e^{rt}$

$y = \frac{Ke^{rt}}{1+e^{rt}} = \color{red}\frac{K}{1+e^{-rt}}$

最后这个红色的解，是不是很熟悉？？？是不是很像炼丹师抬头不见低头见的sigmoid？！

我们对y求导：

$y' = \frac{-K(-r)e^{rt}}{(1+e^{-rt})^2}$

$\quad= Kr·\frac{1}{1+e^{-rt}}·\frac{e^{-rt}}{1+e^{-rt}}$

$\quad= Kr·\frac{1}{1+e^{-rt}}·(1-\frac{1}{1+e^{-rt}})$

$\quad = ry(1-\frac{y}{K}) \quad \Leftarrow$ 符合最一开始的微分方程

忽略掉那些系数，可以概括为，对于满足逻辑斯蒂模型的函数，它的导数等于 (它自己) $\times$ (1 - 它自己)

特别地，当K = r = 1时， $y = \frac{1}{1+e^{-t}} \color{red}= \sigma(t)$ sigmoid成功现形！

$y' = (\frac{1}{1+e^{-t}})(1-\frac{1}{1+e^{-t}}) = y·(1-y)$

$\color{red}\Updownarrow$

$\color{red}\sigma'(t) = \sigma(t)[1- \sigma(t)]$

第二节 —— 统计回归分析中的逻辑斯蒂

逻辑斯蒂分布
设X是随机变量。逻辑分布指满足如下累计分布函数和概率密度函数的分布：

$F(x) = P(X \leq x) = \frac{1}{1+e^{ \frac{-(x- \mu )}{s}}}$

$f(x) = F'(x) = \frac{e^{ \frac{-(x- \mu )}{s}}}{s(1+e^{ \frac{-(x- \mu )}{s}})^2}$

$\mu$ ：位置参数，决定函数图像沿x轴方向的位移
$s$ ：形状参数，决定函数图像的高矮胖瘦
大家可以用几何画板画一下 $\mu$ 和 $s$ 取不同值时的图像，直观的理解一下这两个参数的作用。

$F(x)$ 是以点 $(\mu,\frac{1}{2})$ 中心对称的曲线。它越靠近中心增长越快。 $s$ 越小，在中心附近的增长越快。

特别地，当 $\mu$ =0, $s$ =1 时， $F(x) = \frac{1}{1+e^{-x}} \color{red}= \sigma(x)$

逻辑斯蒂分布有和广泛的而应用。它最早来源于生长曲线的需要，现在还用于经济（例如描述一个产品在广告上投入与最后销售额的关系）、人口统计等领域。

逻辑斯蒂回归
对一个二元分类问题建模。

假设一个工厂生产的产品：达标/不达标 ~ $Bernoulli(p)$ , p是产品达标的概率。
其中这个p受工厂其他各项指标的影响，比如流水线个数，员工人数，已投入使用时长，当日温度等等。假如我们就把举例的这四个作为特征，也就是说每一条数据（代表一个工厂）的特征向量有四维。

$\vec{x_i} = \left\{ \begin{matrix} x_{i1}\\x_{i2}\\x_{i3}\\x_{i4} \end{matrix} \right\}$

角标的含义： $x_{ij}$ 代表第 i 条数据的第 j 维。整个数据集的sample总数是N（i = 1, 2, …, N)
逻辑斯蒂回归的dataset应该是这个亚子的：

Index(i)	$r_i$	$n_i$	$P_i$	$\vec{x_i}$
1	$r_1$	$n_1$	$P_1=\frac{r_1}{n_1}$	$(x_{11} \ \ \ x_{12} \ \ \ x_{13} \ \ \ x_{14})$
2	$r_2$	$n_2$	$P_2=\frac{r_2}{n_2}$	$(x_{21} \ \ \ x_{22} \ \ \ x_{23} \ \ \ x_{24})$
…	…	…	…	…
…	…	…	…	…
N	$r_N$	$n_N$	$P_N=\frac{r_N}{n_N}$	$(x_{N1} \ \ \ x_{N2} \ \ \ x_{N3} \ \ \ x_{N4})$

其中， $P_i$ 的计算方法就是从这个工厂的产品中抽出n个然后检测出当中有r个达标，用 $\frac{r}{n}$ 作为该工厂产品Bernoulli分布的 p . 刚才我们讲p受工厂的四个特征影响，那么我们的目标就是让p用 $\vec{x}$ 来表示。

Goal: Regress $P_i$ on $\vec{x_i}$

第一个当然想到的是直接把 $P_i$ 当做线性回归里面的 “y“

$\Rightarrow Model: P_i=\beta_0 + \beta_1x_{i1} + ... + \beta_4x_{i4} + \epsilon_i$

不过这个不太行，因为 $0\leq P_i \leq1$ ，而 $\vec {x_i}^T \vec{\beta}$ 可能落在这个区间外。这样用 $\vec {x_i}^T \vec{\beta}$ 表示 $P_i$ 就没有意义。

Idea: Do transformation on $P_i$ （统计学中 logistic regression 的精髓呀呀呀！）

$\Rightarrow Model: log(\frac{P_i}{1-P_i})=\beta_0 + \beta_1x_{i1} + ... + \beta_4x_{i4} + \epsilon_i$

$\Leftrightarrow Model: log(\frac{P_i}{1-P_i})=\vec {x_i}^T \vec{\beta} + \vec \epsilon$

$\Leftrightarrow Fitted \ model: log(\frac{\hat{P_i}}{1-\hat{P_i}})=\vec {x_i}^T \hat{\vec{\beta}}$

有 ^ 符号的代表是根据样本数据算出来的参数estimates。对上式做一点变形：

$Fitted \ model: \hat{P_i} = \frac{exp(\vec {x_i}^T \vec{\beta})}{1+exp(\vec {x_i}^T \vec{\beta})} = \frac{1}{1+exp(- \ \vec {x_i}^T \vec{\beta})} \color{red}= \sigma(\vec {x_i}^T \vec{\beta})$

Index(i)	$r_i$	$n_i$	$P_i$	$y=log(\frac{P_i}{1-P_i})$	$\vec{x_i}$
1	$r_1$	$n_1$	$P_1=\frac{r_1}{n_1}$	$log(\frac{P_1}{1-P_1})$	$(x_{11} \ \ \ x_{12} \ \ \ x_{13} \ \ \ x_{14})$
2	$r_2$	$n_2$	$P_2=\frac{r_2}{n_2}$	$log(\frac{P_2}{1-P_2})$	$(x_{21} \ \ \ x_{22} \ \ \ x_{23} \ \ \ x_{24})$
…	…	…	…	…	…
…	…	…	…	…	…
N	$r_N$	$n_N$	$P_N=\frac{r_N}{n_N}$	$log(\frac{P_N}{1-P_N})$	$(x_{N1} \ \ \ x_{N2} \ \ \ x_{N3} \ \ \ x_{N4})$

具体在计算的时候，把上面那个表格里每一行的 $P_i$ 都算一个相应的
$log(\frac{P_i}{1-P_i})$ ，并把这个当成线性回归里面的 “y”，剩下的回归就都清楚啦~

下面简单说一下为什么要这么做 transformation。

在统计学中一个事件A的几率：odds = $\frac{P(A)}{1-P(A)}$

对数几率 = $log(\frac{P(A)}{1-P(A)})$

对数几率这个函数叫做 $logit$ 函数： $logit(y) = \frac{y}{1-y}$

回到刚才的例子中，那么A =“达标”。 $P_i= P(A \ |\ \vec{x_i})$

$odds \ of \ A \ at \ \vec{x_i} = \frac{P(A \ |\ \vec{x_i})}{1-P(A \ |\ \vec{x_i})} = \frac{P_i}{1-P_i}$

$log\ odds\ of\ A\ at\ \vec{x_i} = log\Big(\frac{P_i}{1-P_i}\Big) = \vec {x_i}^T \vec{\beta} + \vec \epsilon$

于是，逻辑斯蒂回归用一句话概括就是：用 $\vec{x}$ 的线性函数去拟合了二元事件的对数几率。因此，逻辑斯蒂回归也叫作 “对数几率回归”。

广义线性

一般线性： $\color{#FF7256}y\color {black} = \beta_0 + \beta_1x_{i1} + \beta_2x_{i2} +... + \epsilon_i = \vec {x_i}^T \vec{\beta} + \vec \epsilon$

广义线性： $\color{#FF7256}transformation\ of\ y \color{black}= \beta_0 + \beta_1x_{i1} + \beta_2x_{i2} +... + \epsilon_i = \vec {x_i}^T \vec{\beta} + \vec \epsilon$

transformation 可以用 $log(y)$ ， $logit(y)$ ， $\Phi^{-1}(y)$ 等等。 $\leftarrow \Phi^{-1} 是正态分布的累计分布函数的反函数$ 。

在logistic regression中就是用的 $logit$ 函数做的 transformation。所以，说白了logistic regression依然是Independent variable $\vec{x}$ 的线性模型，只是给Dependent variable 套了一层外衣。

第三节 —— 视角切换到机器学习

我们把刚才统计中的各种符号和术语渐变到机器学习中来。

需要转换的术语	统计回归分析	机器学习
$\vec x_i$	Independent variable of the $i^{th}$ sample	第 i 条数据的特征向量
$\vec{\beta}$	Regression coefficients	权重（参数） $\vec{w}$ ，需要学习的东西
$P_i$	Dependent variable	输出，要预测的东西
$P_i=\frac{1}{1+exp(-\ \vec{x_i}^T\vec{\beta})}$ $\Updownarrow$ $y=\sigma(\vec{w}^T\vec{x})$	Transformation	Activation function

一切似乎都逐渐明朗了。

$\vec{w}^T\vec{x}$ 不就是特征的 weighted sum 嘛。假如共有k个特征（b 表示bias）：

$\vec{w}=\left\{ \begin{matrix} w_1\\w_2\\.\\.\\w_k\\b \end{matrix} \right\} \quad \quad \vec{x_i} = \left\{ \begin{matrix} x_{i1}\\x_{i2}\\.\\.\\x_{ik}\\1 \end{matrix} \right\}$

还记不记得最简单粗暴的 Perceptron 二分类？神经网络入门时都会看到这样一张图：

在这里插入图片描述

Sign() 就是一个简单粗暴的step function。当自变量低于阈值时，函数值为0，超过阈值时函数值为1. 它也算一个 activation function吧，作用就是给 $\vec{w}^T\vec{x}$ 套一层外衣，变成了输出。但是sign() 不可导成为了致命伤。于是我们给 $\vec{w}^T\vec{x}$ 换件衣服变成： $\sigma(\vec{w}^T\vec{x}) = \frac{1}{1+exp(- \ \vec{w}^T\vec{x})} \quad\leftarrow 这就舒服多了！$

$\sigma()$ 光滑可导并且值域还刚好是（0，1），因此可以模拟概率。

像回归分析中的一样，考虑一个二分类模型，label服从 $Bernoulli(p)$ 分布， $y_i=1$ (正例) 的概率为 $P_i$ 。之后，训练 logistic regression模型意味着用特征的线性组合去拟合p的对数几率（跟刚才一样）。

$Model: log(\frac{P_i}{1-P_i}) = \vec{w}^T\vec{x} \quad \Leftrightarrow \quad \begin{cases} P_i=P(y_i=1\ |\ \vec{x_i}) = \frac{1}{1+exp(-\vec{w}^T\vec{x})}=\sigma(\vec{w}^T\vec{x}) \\ \ \\ 1-P_i= P(y_i=0\ |\ \vec{x_i})= \frac{exp(-\vec{w}^T\vec{x})}{1+exp(-\vec{w}^T\vec{x})}=1-\sigma(\vec{w}^T\vec{x}) \end{cases}$

所以，模型输出是 $\sigma(\vec{w}^T\vec{x})$ ，它的含义是：在看到 $\vec {x_i}$ 的条件下，模型认为 $y_i=1$ 的概率。如果输出大于 $\frac{1}{2}$ ，则预测正例，如果小于 $\frac{1}{2}$ ，则预测负例。

第四节：神奇的吻合 —— 逻辑斯蒂回归的损失函数

1. Logistic Loss —— Negative sum of log accuracy

假设预测对得1分，否则0分，label $\in$ {1, -1}

那么，对于第i条训练数据，若真实 label = 1，得1分的概率为 $\frac{1}{1+exp(-\vec{w}^T\vec{x_i})}$

若真实 label = -1，得1分的概率为 $\frac{exp(-\vec{w}^T\vec{x_i})}{1+exp(-\vec{w}^T\vec{x_i})} = \frac{1}{1+exp(\vec{w}^T\vec{x_i})}$

把这两种情况综合一下，得1分的概率为 P(accurate) = $\frac{1}{1+exp(-\color{red}y_i\color{black}\vec{w}^T\vec{x_i})}$

$Loss = Negative\ sum\ of\ log\ accuracy$
$\quad\quad\ =-\displaystyle\sum^{n}_{i=1}log(P(accurate))$
$\quad\quad\ =-\displaystyle\sum^{n}_{i=1}log(\frac{1}{1+exp(-y_i\vec{w}^T\vec{x_i})})$
$\quad\quad\ =\displaystyle\sum^{n}_{i=1}log[\ 1+exp(-y_i\vec{w}^T\vec{x_i})\ ]$

n 是 batch_size

如果我们用SGD（stochastic gradient descent）的话，n = 1。对 Loss 求关于 $\vec w$ 的导数：

$\frac{\partial{Loss}}{\partial{\vec w}} = \frac{exp(-y_i\vec{w}^T\vec{x_i}) (-y_i\vec{x_i})}{1+exp(-y_i\vec{w}^T\vec{x_i})}$

$\quad\quad\quad\ \ =(-y_i\vec{x_i})P(not\ accurate)$

还记得梯度下降的权重更新方法吗？ $\Rightarrow\ \ \vec w = \vec w-\alpha d$

其中， $\alpha$ 是 learning rate， $d$ 是gradient，也就是刚才算的 $(-y_i\vec{x_i})P(not\ accurate)$

权重更新： $\ \vec w = \vec w-\alpha P(not\ accurate)y_i\vec{x_i}$

一般情况下，logistic loss 的公式为 $\color{#FF7256}L(y, f(x))=log[\ 1+exp(-yf(x))\ ]$ 。也就是说，在logistic regression 中， $f(x)=\vec w^T\vec x$ ，而在一般情况下， $f(x)$ 可以用更复杂的函数甚至是神经网络代替。

2. Maximum Likelihood Loss

刚才我们定义 label (y) $\in$ {1，-1}。现在令 t = $\frac{y+1}{2}$ ，则 t $\in$ {1，0}

$\begin{cases} y=1\ \Rightarrow \ t=1 \\ y=-1\ \Rightarrow \ t=0 \end{cases}$

在模型中条件概率 $P(t_i\ |\ \vec{x_i})$ 符合 $Bernoulli$ 分布。

即 $\begin{cases} P(t_i=1\ |\ \vec{x_i}) = \sigma(\vec w^T\vec{x_i}) \\ P(t_i=0\ |\ \vec{x_i}) = 1-\sigma(\vec w^T\vec{x_i}) \end{cases}$

在极大似然的视角下假设这个模型是正确的，那么看到我们数据集中的 n 个样本： $(\vec{x_1}, t_1), (\vec{x_2}, t_2), ..., (\vec{x_n}, t_n)$ 的概率（likelihood）为：

$Likelihood=\displaystyle \prod^{n}_{i=1}\ [\sigma(\vec w^T\vec{x_i})]^{t_i}\ [1-\sigma(\vec w^T\vec{x_i})]^{1-t_i}$

$log(Likelihood)=\displaystyle \sum^{n}_{i=1}\ \{\ t_ilog[\sigma(\vec w^T\vec{x_i})]+(1-t_i)log[1-\sigma(\vec w^T\vec{x_i})]\ \}$

$max_{\vec w}\ \{ log(Likelihood)\}= min_{\vec w}\ \{ -log(likelihood)\}$

$\Rightarrow \color{red}Loss\color{black}=-log(Likelihood) = \color{red}-\displaystyle \sum^{n}_{i=1}\ \{\ t_ilog[\sigma(\vec w^T\vec{x_i})]+(1-t_i)log[1-\sigma(\vec w^T\vec{x_i})]\ \}$

3. Cross Entropy Loss

看到最大似然损失的时候，大家有没有发觉最大似然损失的公式跟二项交叉熵损失是一样的呀！

$\color{red}Cross Entropy Loss=-\displaystyle \sum^{n}_{i=1}\ \{\ t_ilog[\sigma(\vec w^T\vec{x_i})]+(1-t_i)log[1-\sigma(\vec w^T\vec{x_i})]\ \}$

不过我们依旧要从信息论的视角来好好地盘一盘交叉熵。

熵是随机变量不确定性的度量，它也是平均意义上描述随机变量所需的编码长度的度量。

相对熵，也叫 K-L散度，描述两个随机分布之间距离。它的定义如下：（ $\displaystyle \sum_{x}$ 代表对随机变量 $x$ 所有可能的取值求和）

$KL(P\ ||\ Q)=\displaystyle \sum_{x}P(x)log\frac{P(x)}{Q(x)}$

$\Leftrightarrow KL(P\ ||\ Q)=-\displaystyle \sum_{x}P(x)logQ(x)\ -\ (-\displaystyle \sum_{x}P(x)logP(x))$

$\color{#FF7256}\Leftrightarrow KL(P\ ||\ Q)=CrossEntropy(P\ ||\ Q)-H(P)$

$\Leftrightarrow KL(P\ ||\ Q)= 分布P和Q的交叉熵-分布 P 的信息熵$

信息论课本上摘录内容：相对熵度量真实分布为 $P$ 而假定分布为 $Q$ 时的无效性。例如，已知随机变量的真是分布为 $P$ ，于是可以构造平均长度为 $H(P)$ 的编码描述这个随机变量。但如果使用针对分布 $Q$ 的编码，那么平均编码长度为 $H(P)+KL(\ P|\ Q) = CrossEntropy(P\ |\ Q)$ 。

$\color{#FF7256}CrossEntropy(P\ |\ Q)=-\displaystyle\sum_{x}P(x)logQ(x)$

在机器学习中，真实分布 $P$ 就是样本数据的分布，而假定分布 $Q$ 就等同于模型认为的分布。我们希望 $P$ 和 $Q$ 的距离越近越好。由于 $H(P)$ 跟模型参数无关，所以在训练参数的时候，缩小 $KL(P\ ||\ Q)$ 等同于缩小 $CrossEntropy(P\ ||\ Q)$ 。这就是为啥机器学习中这么喜欢用交叉熵。它的含义：描述两个概率分布的差异，差异越小，交叉熵越小。

在二分类问题中，随机变量 $label$ 代表类别，它只有两种可能的取值：1，0. 然后我们考虑在已知特征 $\vec {x_i}$ 情况下的条件概率分布。真实的条件概率分布为 $R$ （为了避免和后面 $Bernoulli$ 分布里的 $P_i$ 弄混），模型模拟的条件概率分布为 $Q$ 。

$CrossEntropy_i(R\ |\ Q)=-\displaystyle \sum_{k=1, 0}R(label=k\ |\ \vec{x_i})\ logQ(label=k\ |\ \vec{x_i})$

其中， $logQ(label=1\ |\ \vec{x_i})=\sigma(\vec w^T\vec{x_i})=P_i$ ， $logQ(label=0\ |\ \vec{x_i})=1 -\sigma(\vec w^T\vec{x_i})=1-P_i$

由于样本标签已确定，所以样本中的条件概率分布就不是随机的了：

① If label = 1, then $R(label=1\ |\ \vec{x_i})=1$ ， $R(label=0\ |\ \vec{x_i})=0$ ，

$\Rightarrow CrossEntropy_i(R\ |\ Q)=-[1·logP_i+0·log(1-P_i)]$

② If label = 0, then $R(label=1\ |\ \vec{x_i})=0$ ， $R(label=0\ |\ \vec{x_i})=1$

$\Rightarrow CrossEntropy_i(R\ |\ Q)=-[0·logP_i+1·log(1-P_i)]$

综合一下这两个case： $CrossEntropy_i(R\ |\ Q)=-[label·logP_i+(1-label)·log(1-P_i)]$

对每一条数据的损失进行加和，就得到了交叉熵损失的公式（刚才列出来过了）：

$-\displaystyle \sum^{n}_{i=1}\ \Big\{t_ilog[\sigma(\vec w^T\vec{x_i})]+(1-t_i)log[1-\sigma(\vec w^T\vec{x_i})]\Big\}$

小结

Maximum Likelihood Loss 与 Cross Entropy Loss 是等价的，也就是说，使Likelihood最大化的过程也是使交叉熵最小化的过程，也就等同于使模型模拟的分布与样本数据的真是分布越来越近。这看似一个神奇的巧合，事实上，是有理论的链条将它们连接起来的。相对熵在统计学中对应的就是 “似然比的对数期望”。

$KL(P\ ||\ Q)=\displaystyle \sum_{x}P(x)log\frac{P(x)}{Q(x)}=E_x\Big[log\frac{P(x)}{Q(x)}\Big]$

按照这个思路推导下去，那么交叉熵其实就是 “似然的对数期望”：(设 x 是随机变量）

$\vec w^*=argmax{\vec w} \displaystyle \prod^{n}_{i=1} Q(x\ |\ \vec w)\ \leftarrow$ 对参数做最大似然估计

$\quad\ =argmin_{\vec w} \displaystyle \prod^{n}_{i=1} Q(x\ |\ \vec w)$

$\quad\ =argmin_{\vec w} \displaystyle \sum^{n}_{i=1} logQ(x\ |\ \vec w)$

$\quad\ =argmin_{\vec w} \displaystyle \sum_{x} Count(X=x)logQ(x\ |\ \vec w)\ \leftarrow$ 从按index的遍历改为按x的取值遍历

$\quad\ =argmin_{\vec w} \displaystyle \sum_{x} (\frac{Count(X=x)}{n})logQ(x\ |\ \vec w)\ \leftarrow$ 给目标函数除以了样本总数 n，缩放目标函数不会改变 $argmin$ 的结果。

$\quad\ =argmin_{\vec w} \displaystyle \sum_{x} \hat{R}(X=x)logQ(x\ |\ \vec w)\ \leftarrow\ \color{#8AD597}\hat{R}(X=x)=\frac{Count(X=x)}{n} 是样本数据的经验分布$

$\quad\ =argmin_{\vec w} E_{x\sim \hat{R}}logQ(x\ |\ \vec w)$

$\quad\ =argmin_{\vec w} E_{x\sim R}logQ(x\ |\ \vec w)\ \leftarrow \color{#8AD597} 当数据量足够大并且采样方法足够好时，样本数据的经验分布=真实分布$

$\quad\ =argmin_{\vec w} \displaystyle \sum_{x} R(X=x)logQ(x\ |\ \vec w) \leftarrow$ 现在已经推导到了 “求使交叉熵最小化的参数” 这个形式

接下来还能推出 $Logistic\ Loss$ 与最大似然损失也是等价的：

If label $\in$ {1，-1}，then $Q(y_i\ |\ \vec{x_i}) = \frac{1}{1+exp(-y_i\vec{w}^T\vec{x_i})}=\sigma(y_i\vec{w}^T\vec{x_i})$

$Likelihood= \prod^n_{i=1}\sigma(y_i\vec{w}^T\vec{x_i})$

$-log(Likelihood)=-\sum^n_{i=1}\sigma(y_i\vec{w}^T\vec{x_i})=\displaystyle\sum^{n}_{i=1}log[\ 1+exp(-y_i\vec{w}^T\vec{x_i})\ ]$

If label $\in$ {1，0}，then $Q(y_i\ |\ \vec{x_i}) =\sigma(\vec w^T\vec{x_i})]^{y_i}\ [1-\sigma(\vec w^T\vec{x_i})]^{1-y_i}$

$Likelihood=\prod^n_{i=1}\sigma(\vec w^T\vec{x_i})]^{t_i}\ [1-\sigma(\vec w^T\vec{x_i})]^{1-t_i}$

$-log(Likelihood)=-\sum^n_{i=1}\Big\{y_ilog[\sigma(\vec w^T\vec{x_i})]+(1-y_i)log[1-\sigma(\vec w^T\vec{x_i})]\Big\}$

可见 $Logistic\ Loss$ 与极大似然损失等价，区别仅仅是标签的定义不同。

这就是本节标题中 “神奇的吻合” 的含义：逻辑斯蒂回归模型的参数无论是用 Logistic Loss 还是 Maximum Likelihood Loss 还是 Cross Entropy Loss 训练出来的是同一组参数！但是这并非纯属偶然，而是同一个概念在信息论中和在统计学中本来就有对应关系。

第五节：分类器中的天真小弟 —— 朴素贝叶斯

朴素贝叶斯文本分类模型

考虑如下文本分类模型： $P(y_i, d_i)$ 表示一篇文章以及它的 label 的联合概率。 $d_i$ 指第 i 条训练数据中的文本。假设 $d_i$ 中每个词都是一个特征。

条件独立分布假设：已知文本标签的条件下，特征的分布是相互独立的。（已知标签后 $y_i$ ， $d_i$ 的概率等于该文本中每个词出现的概率乘积。

利用贝叶斯条件概率公式：

$P(y_i, d_i)=P(y=y_i)P(d_i\ |\ y=y_i)$

$\quad\quad\quad\quad=P(y=y_i)\displaystyle \prod^{V}_{j=1}P(x_j\ |\ y=y_i)^{C_{d_i}(x_j)}$

其中， $V$ 代表字典的 size， $x_j$ 代表 the $j^{th}$ word in dictionary， $C_{d_i}(x_j)$ 代表词 $x_j$ 在文件 $d_i$ 中出现的次数。

Define： $P(y=y_i)=\pi_{y_i}, \quad P(x_j\ |\ y=y_i)=\theta_{y_i,\ x_j}\ \leftarrow$ 这两种概率就是我们要估计的参数

$\Rightarrow P(y_i, d_i)=\pi_{y_i}\displaystyle \prod^{V}_{j=1}{(\theta_{y_i,\ x_j})}^{C_{d_i}(x_j)}$

用最大似然法估计朴素贝叶斯的最佳参数

(参数下面带波浪线代表是参数向量 / 矩阵, D 代表数据集中文件的总个数)

$Likelihood(\underset \sim{\pi},\ \underset \sim{\theta})=\displaystyle \prod^D_{i=1}P(y_i, d_i)$

$\quad\quad\quad\quad\quad=\displaystyle \prod^D_{i=1}[\pi_{y_i}\displaystyle \prod^{V}_{j=1}{(\theta_{y_i,\ x_j})}^{C_{d_i}(x_j)}]$

$log(Likelihood(\underset \sim{\pi},\ \underset \sim{\theta}))=\displaystyle \sum^D_{i=1}\Big[log\pi_{y_i}+\displaystyle \sum^{V}_{j=1}{C_{d_i}(x_j)}log(\theta_{y_i,\ x_j})\Big]$

约束： $\begin{cases} ①\ \ \displaystyle \sum^{K}_{k=1}\pi_k=1 \\ ②\ \ for\ every\ k,\ \displaystyle \sum^V_{j=1}\theta_{k,\ j}=1 \end{cases}$

$log(L_{\pi_k})=\displaystyle \sum^D_{i=1}\Big[log\pi_{y_i}+\displaystyle \sum^{V}_{j=1}{C_{d_i}(x_j)}log(\theta_{y_i,\ x_j})\Big]+\alpha(\sum^K_{k=1}\pi_k-1)\ \leftarrow$ 对 $\pi_k$ 求最优解，对第一个约束引入拉格朗日乘子

$\frac{\partial{log(L_{\pi_k})}}{\partial{\pi_k}}=\displaystyle \sum^D_{i=1}\frac{1}{\pi_k}I_{y_i=k}+\alpha=0,$ $\quad for\ k=1,\ 2,\ ...,\ K\ \leftarrow$ 对 $\pi_k$ 求偏导数并令其得0

$I_{y_i=k}$ 是 Indicator function, $I_{y_i=k}=\begin{cases} 1\quad if\ y_i=k \\ 0\quad otherwise \end{cases}$

$\Rightarrow\ \ \frac{\sum^D_{i=1}I_{y_i=k}}{\pi_k}+\alpha=0$

$\Rightarrow\ \ \pi_k=\frac{-(y_i=k的文件数)}{\alpha}$

根据第一个约束，我们有： $\sum^K_{k=1}\pi_k=\frac{-\sum^K_{k=1}(y_i=k的文件数)}{\alpha}=\frac{-(总文件个数)}{\alpha}=1$

$\Rightarrow\ \ \ \alpha=-(总文件个数)$

$\Rightarrow\ \ \color{red}\pi_k=\frac{y_i=k的文件数}{总文件个数}$

$log(L_{\theta_{k,\ j}})=\displaystyle \sum^D_{i=1}[log\pi_{y_i}+\displaystyle \sum^{V}_{j=1}{C_{d_i}(x_j)}log(\theta_{y_i,\ x_j})]+\mu_k(\sum^V_{j=1}\theta_{k,\ j}-1)\ \leftarrow$ 对 $\theta_{k,\ j}$ 求最优解，对第二个约束引入拉格朗日乘子

$\frac{\partial{log(L_{\theta_{k,\ j}})}}{\partial{\theta_{k,\ j}}}=\displaystyle \sum^D_{i=1}\frac{C_{d_i}(x_j)}{\theta_{k\ ,j}}I_{y_i=k}+\mu_k=0,$ $\quad for\ k=1,\ 2,\ ...,\ K,\ j=1,\ 2,\ ...,\ V\ \leftarrow$ 对 $\theta_{k,\ j}$ 求偏导数并令其得0

$\Rightarrow\ \ \frac{y_i=k的文件中词x_j的个数}{\theta_{k,\ j}}+\mu_k=0$

$\Rightarrow\ \ \theta_{k,\ j}=\frac{-(y_i=k的文件中词x_j的个数)}{\mu_k}$

根据第二个约束，我们有：

$\sum^V_{j=1}\theta_{k,\ j}=\frac{-\sum^V_{j=1}(y_i=k的文件中词x_j的个数)}{\mu_k}=\frac{-(y_i=k的文件中所有词的个数)}{\mu_k}=1$

$\Rightarrow\ \ \ \mu_k=-(y_i=k的文件中所有词的个数)$

$\Rightarrow\ \ \color{red}\theta_{k,\ j}=\frac{y_i=k的文件中词x_j的个数}{y_i=k的文件中所有词的个数}$

朴素贝叶斯，逻辑斯蒂回归，傻傻分不清楚？

之前我们讲一个文件 $d_i$ 的特征是文件当中的所有单词，那么从现在起 $d_i$ 用一个特征向量 $\vec{x_i}$ 表示。

利用贝叶斯条件概率公式：

$P(y_i\ |\ \vec{x_i})=\frac{P(y_i, \vec{x_i})}{P(\vec{x_i})}=\frac{P(\vec{x_i}\ |\ y_i)P(y_i)}{P(\vec{x_i})}$

在二分类问题中， $y_i\in\{1,0\}$ ：

$\begin{cases} P(y_i=1\ |\ \vec{x_i})=\frac{P(\vec{x_i}\ |\ y_i=1)P(y_i=1)}{P(\vec{x_i})}\ \leftarrow \ \color{#8AD597}后验概率\\ \\ P(y_i=0\ |\ \vec{x_i})=\frac{P(\vec{x_i}\ |\ y_i=0)P(y_i=0)}{P(\vec{x_i})}\ \leftarrow \ \color{#8AD597}后验概率 \end{cases}$

上面的等式左边是后验概率，然后我们用等式右边的先验概率给表示了。等式右边的分子中 $P(\vec{x_i}\ |\ y_i=k)$ 和 $P(y_i=k)$ 都是参数，用刚才的最大似然法估计。在预测的时候，由于上面两个后验概率表达式的分母一样，所以只要比较分子即可，哪个大就预测为哪一类。

在提及分类问题的时候经常有 “最大后验概率” 这个说法。但是，由于我们忽略了上面两个后验概率表达式的分母 $P(\vec{x_i})$ ，因此模型其实计算的是 $P(\vec{x_i}\ |\ y_i=k)P(y_i=k) = P(y_i, \vec{x_i})$ 。朴素贝叶斯其实是对特征向量和标签的联！合！分！布！建模，而非直接对后验概率建模！

继续回到上面两个后验概率的表达式，分母 $P(\vec{x_i})$ 的作用看作是“归一化”，因为

$P(\vec{x_i})=P(y_i=1, \vec{x_i})+P(y_i=0, \vec{x_i})$

$\quad\quad\quad=P(\vec{x_i}\ |\ y_i=1)P(y_i=1)+P(\vec{x_i}\ |\ y_i=0)P(y_i=0)$

$\quad\quad\quad=两式分子之和$

我们对 $P(y_i=1\ |\ \vec{x_i})$ 做一些变形：

$P(y_i=1\ |\ \vec{x_i})=\frac{P(\vec{x_i}\ |\ y_i=1)P(y_i=1)}{P(\vec{x_i}\ |\ y_i=1)P(y_i=1)+P(\vec{x_i}\ |\ y_i=0)P(y_i=0)}$

$\quad\quad\quad\quad\ \ =\frac{1}{1+\frac{P(\vec{x_i}\ |\ y_i=0)P(y_i=0)}{P(\vec{x_i}\ |\ y_i=1)P(y_i=1)}}$

$\quad\quad\quad\quad\ \ =\frac{1}{1+exp\Big\{-log\big(\frac{P(\vec{x_i}\ |\ y_i=1)P(y_i=1)}{P(\vec{x_i}\ |\ y_i=0)P(y_i=0)}\big)\Big\}}$ （♠）

$\quad\quad\quad\quad\ \ =\frac{1}{1+exp\Bigg\{-log\bigg(\frac{\pi_{1} \prod^{V}_{j=1}{(\theta_{1,\ x_j})}^{C_{d_i}(x_j)}}{\pi_{0} \prod^{V}_{j=1}{(\theta_{0,\ x_j})}^{C_{d_i}(x_j)}} \big)\Bigg\}}$ （♠’）

$\quad\quad\quad\quad\ \ =\frac{1}{1+exp\Bigg\{-\bigg[log\pi_{1}+ \sum^{V}_{j=1}C_{d_i}(x_j)log(\theta_{1,\ x_j})-log\pi_{0}- \sum^{V}_{j=1}C_{d_i}(x_j)log(\theta_{0,\ x_j}) \bigg]\Bigg\}}$

$\quad\quad\quad\quad\ \ =\frac{1}{1+exp\Bigg\{- log\big(\frac{\pi_1}{\pi_0}\big)-\sum^{V}_{j=1}C_{d_i}(x_j)log\big(\frac{\theta_{1,\ x_j}}{\theta_{0,\ x_j}}\big)\Bigg\} }$ （♦）

令 $b=log\big(\frac{\pi_1}{\pi_0}\big)$ ， $w_j=log\big(\frac{\theta_{1,\ x_j}}{\theta_{0,\ x_j}}\big),\ for \ j=1,2,...,V$

既然 $d_i$ 是用文件中每个词的个数表示的，那么字典里共 $V$ 个词意味着每个文件的特征向量有 $V$ 维。

于是： $\vec{x_i} = \left\{ \begin{matrix} C_{d_i}(word_1)\\C_{d_i}(word_2)\\.\\.\\.\\C_{d_i}(word_V)\\1\color{#8AD597}\ \leftarrow\ bias\color{black} \end{matrix} \right\}$ ， $\quad\vec w=\left\{ \begin{matrix} w_1 \\ w_2 \\ .\\.\\.\\ w_V \\ b \end{matrix}\right\} = \left\{ \begin{matrix} log\big(\frac{\theta_{1,\ word_1}}{\theta_{0,\ word_1}}\big) \\ \\ log\big(\frac{\theta_{1,\ word_2}}{\theta_{0,\ word_2}}\big) \\.\\.\\.\\ log\big(\frac{\theta_{1,\ word_V}}{\theta_{0,word_V}}\big) \\ \\ log\big(\frac{\pi_1}{\pi_0}\big) \end{matrix}\right\}$

将 $\vec{x_i},\ \vec w$ 带入上面的（♦）式，得到： $P(y_i=1\ |\ \vec{x_i})=\frac{1}{1+exp(-\vec{w}^T\vec{x_i})}$

哟吼~ 我们竟然把朴素贝叶斯中的后验概率推出了 logistic regression 的模样！

这时候不禁会想，难道朴素贝叶斯和 logistic regression 是。。。等。。。价的？小朋友你是否有很多问号？？？

是不是会这么想：假如一开始就把后验概率用 $\vec{x_i}$ 和 $\vec w$ 表示，直接对后验概率建模，那样就是 logistic regression 模型。然后由于 logistic regression 是用最大似然损失，经过梯度下降求得的使损失最小化的参数，而朴素贝叶斯刚好也是用最大似然法求的最优参数，这样 logistic regression 和朴素贝叶斯对文本二分类问题的解就，一模一样了吗？？

Emmmm其实不然。

注意看刚刚的一大串推导当中（♠） $\rightarrow$ （♠’）这一步是在把 $P(\vec{x_i}\ |\ y_i=k)$ 展开，这时候用到了特征之间的条件独立假设！而如果一开始用的 logistic regression 模型，得到 $P(y_i=1\ |\ \vec{x_i})=$ $\frac{1}{1+exp(-\vec{w}^T\vec{x_i})}$ ，然后反着推，就没有条件独立假设，是推不回去的。Logistic regression 训练参数的时候即便特征之间不独立，也能训练出最优的参数，但此时 $\vec w$ 不一定等于 $\left\{ \begin{matrix} log\big(\frac{\theta_{1,\ word_1}}{\theta_{0,\ word_1}}\big) \\ \\ log\big(\frac{\theta_{1,\ word_2}}{\theta_{0,\ word_2}}\big) \\.\\.\\.\\ log\big(\frac{\theta_{1,\ word_V}}{\theta_{0,word_V}}\big) \\ \\ log\big(\frac{\pi_1}{\pi_0}\big) \end{matrix}\right\}$

Take away message：Logistic regression + 条件独立假设 (约束) $\Leftrightarrow$ Naive Bayes. Logistic regression is more general, more 牛逼.

整理 Logistic Regression 和 Naive Bayes 的异同

逻辑斯蒂回归	朴素贝叶斯
目标：最大化后验概率 $P(y$ \| $\ \vec x)$	相同
用最大似然法估计最佳参数	相同
判别式模型	生成式模型
直接对后验概率 $P(y$ \| $\ \vec x)$ 建模	对联合分布 $P(y, \vec x)$ 建模
约束更宽松	约束：特征之间的条件独立假设
用梯度下降进行优化	可以不通过（而不是不能）梯度下降等优化方法。事实上，由于严格的限制，朴素贝叶斯的参数已经有固定形式了，可以直接统计数据中的频率获得权重的最大似然估计。计算简单，用 counting table就行。
在有相关性的 feature 上学习得更好。对特征工程的要求低	较依赖特征工程去选取相互独立的特征。Instead of word count, 在特征工程中还可以选择 TFIDF 之类的作为特征，其实用朴素贝叶斯做project能自己发挥的也就在特征工程上面了。
由于限制宽松，所以参数空间的搜索范围更大，需要大量数据。在大数据集上，或是特征维度多时取得更好的效果	在小数据集去的更好的效果，原因是生成模型会考虑 prior，所以在其他方面的劣势体现不明显时会fit更好。

第六节：逻辑斯蒂回归& 最大熵模型的血缘关系

最大熵原理

学习概率模型时，在所有可能的，满足约束条件的模型中，熵最大的模型最好。

概率分布 P 的熵 $=H(P)=-\displaystyle \sum_xP(x)logP(x)$

熵满足这个不等式： $0\leq H(P)\leq log|X|$ . $|X|$ 代表随机变量 X 所有可能的取值的个数。当且仅当 X 是均匀分布的时候，右边的等号成立，此时熵最大。直观地讲，最大熵原理认为要选择的概率模型首先必须要满足已有的事实，即约束条件。在没有更多信息的情况下，那些不确定的部分都是 “等可能” 的。“等可能” 不容易操作，而熵则是一个可优化的数值。于是最大熵原理通过熵的最大化来表示 “等可能性”。

最大熵模型的定义

训练数据集 $T=\{(\vec{x_1}, y_1),\ (\vec{x_2},y_2),\ ...,\ \}$

用特征函数 $f(\vec x,\ y)$ 描述 $\vec x$ 和 $y$ 之间的某一事实：

$f(\vec x,\ y)=\begin{cases} 1\quad if\ \vec x\ \&\ y\ 满足某一事实 \\ 0\quad otherwise\end{cases}$

定义在训练数据集上的经验分布：

$\begin{cases} \hat{P}(\vec X=\vec x,\ Y=y)=\frac{Count(\vec X=\vec x,\ Y=y)}{N}\ \leftarrow\ \color{#8AD597}经验联合分布\\ \hat{P}(\vec X=\vec x)=\frac{Count(\vec X=\vec x)}{N}\ \leftarrow\ \color{#8AD597}经验边缘分布\end{cases}$

假设分类模型是对条件概率分布 $P(Y\ |\ \vec X)$ 建模。

定义 $\begin{cases} f(\vec x,\ y) 在经验联合分布上的期望：E_{\hat P}(f)=\displaystyle\sum_{\vec x,\ y}\hat P(\vec x,\ y)f(\vec x,\ y) \\ \\ f(\vec x,\ y) 关于模型P(Y\ |\ \vec X)与经验边缘分布\hat{P}(\vec X)的期望：E_{P}(f)=\displaystyle\sum_{\vec x,\ y}P(y\ |\ \vec x)\hat P(\vec x)f(\vec x,\ y) \end{cases}$

约束条件： $E_{\hat P}(f)=E_{P}(f)$ （这两个期望相等表明模型可以从数据集获得有关真实分布充足的信息）

如果有 n 个事实，那么将构造 n 个特征函数，就要有 n 个约束条件。

假设满足所有约束条件的集合为： $C\equiv\{P\in\ \mathcal{P}\ |\ E_{\hat P}(f_i)=E_{P}(f_i),\ \ i=1,2,...,n\}$

定义在条件概率分布上的条件熵为： $H(P)=-\displaystyle \sum_{\vec x,\ y}\hat{P}(\vec x)P(y\ |\ \vec x)logP(y\ |\ \vec x)$

$\Rightarrow$ 最大熵模型就是模型集合 $C$ 中 $H(P)$ 最大的模型

最大熵模型的学习

最大熵模型的学习等价于约束最优化问题： $\underset{P\in C}{max}H(P)\ \Leftrightarrow\ \underset{P\in C}{min}H(P)$

约束： $E_{\hat P}(f_i)=E_{P}(f_i),\ \ i=1,2,...,n$ ， $\displaystyle\sum_yP(y\ |\ \vec x)=1$

将约束最优化问题转化为无约束最优化的对偶问题

引入拉格朗日乘子 $w_0,w_1,...,w_n$ ，定义拉格朗日函数 $\mathcal{L}(P,\ \vec w)$ (听起来神秘兮兮的~ 别走，先往下看着)

$\mathcal{L}(P,\ \vec w)\equiv -H(P)+w_0[1-\displaystyle\sum_{y}P(y\ |\ \vec x)]+\sum^n_{i=1}w_i[E_{\hat P}(f_i)-E_{P}(f_i)]$

$\quad\quad\quad\quad= \sum_{\vec x,\ y}\hat{P}(\vec x)P(y\ |\ \vec x)logP(y\ |\ \vec x)+w_0[1-\sum_{y}P(y\ |\ \vec x)]+\sum^n_{i=1}w_i\Big[\sum_{\vec x,\ y}\hat P(\vec x,\ y)f_i(\vec x,\ y)-\sum_{\vec x,\ y}P(y\ |\ \vec x)\hat P(\vec x)f_i(\vec x,\ y)\Big]$

原始最优化问题： $\underset{P\in C}{min}\ \underset{\vec w}{max}\ \mathcal{L}(P,\ \vec w)$

对偶问题： $\underset{\vec w}{max}\ \underset{P\in C}{min}\ \mathcal{L}(P,\ \vec w)$

由于 $\underset{\vec w}{max}$ 是凸函数，原始问题的解和对偶问题的解是等价的。

$\underset{\vec w}{max}\ \color{red}\underset{P\in C}{min}\ \mathcal{L}(P,\ \vec w)\ \color{black}\leftarrow$ 先求红色的部分，它是 $\vec w$ 的函数。

记 $\Psi(\vec w)=\underset{P\in C}{min}\ \mathcal{L}(P,\ \vec w)$ ，称 $\Psi(\vec w)$ 为 “对偶函数”。

同时，将 $\Psi(\vec w)$ 的解记为： $P_{\vec w}=\underset{P\in C}{Argmin}\ \mathcal{L}(P,\ \vec w)=P_{\vec w}(y\ |\ \vec x)$

$\frac{\partial{\mathcal{L}(P,\ \vec w)}}{\partial{P(y\ |\ \vec x)}}=\displaystyle\sum_{\vec x,\ y}\hat{P}(\vec x)\big[logP(y\ |\ \vec x)+1\big]-\sum_yw_0-\sum_{\vec x,\ y}\hat{P}(\vec x)\sum^n_{i=1}w_if_i(\vec x,\ y)$

其中， $\displaystyle\sum_yw_0=\sum_y\sum_x\hat{P}(\vec x)w_0=\sum_{\vec x,\ y}\hat{P}(\vec x)w_0\ \leftarrow\ \color{#8AD597}\sum_x\hat{P}(\vec x)=1$

$\Rightarrow\ \frac{\partial{\mathcal{L}(P,\ \vec w)}}{\partial{P(y\ |\ \vec x)}}=\displaystyle\sum_{\vec x,\ y}\hat{P}(\vec x) \Big[logP(y\ |\ \vec x)+1-w_0-\sum^n_{i=1}w_if_i(\vec x,\ y) \Big]$

令 $\frac{\partial{\mathcal{L}(P,\ \vec w)}}{\partial{P(y\ |\ \vec x)}}=0$ ，在 $\hat{P}(\vec x)>0$ 时，

解得 $P_{\vec w}(y\ |\ \vec x)=exp\big\{w_0+\sum^n_{i=1}w_if_i(\vec x,\ y)-1\big\}=$ $\frac{exp\big\{\sum^n_{i=1}w_if_i(\vec x,\ y)\big\}}{exp\{1-w_0\}}$

由于 $\displaystyle\sum_yP(y\ |\ \vec x)=1$ ， $\frac{\sum_{y}exp\big\{\sum^n_{i=1}w_if_i(\vec x,\ y)\big\}}{exp\{1-w_0\}}=1\ \Rightarrow$ $\ \sum_{y}exp\big\{\sum^n_{i=1}w_if_i(\vec x,\ y)\big\}=exp\{1-w_0\}$

令 $Z_{\vec w}(\vec x)=\sum_{y}exp\big\{\sum^n_{i=1}w_if_i(\vec x,\ y)\big\}$ ，

把 $P_{\vec w}(y\ |\ \vec x)$ 表达式中的分母替换掉，得到： $\color{red}P_{\vec w}(y\ |\ \vec x)=$ $\color{red}\frac{exp\big\{\sum^n_{i=1}w_if_i(\vec x,\ y)\big\}}{Z_{\vec w}(\vec x)}\color{#8AD597}=\frac{exp\{特征的加权和\}}{归一化因子}$ (♠)

将 $P_{\vec w}(y\ |\ \vec x)$ 代入 $\mathcal{L}(P,\ \vec w)$ 可得：

$\Psi(\vec w)=\sum_{\vec x,\ y}\hat{P}(\vec x)P_{\vec w}(y\ |\ \vec x)logP_{\vec w}(y\ |\ \vec x)+w_0\big[1-\sum_{y}P_{\vec w}(y\ |\ \vec x) \big]+\sum^n_{i=1}w_i\Big[\sum_{\vec x,\ y}\hat P(\vec x,\ y)f_i(\vec x,\ y)-\sum_{\vec x,\ y}P_{\vec w}(y\ |\ \vec x)\hat P(\vec x)f_i(\vec x,\ y)\Big]$

$\quad\quad\ \ =\sum_{\vec x,\ y}\hat{P}(\vec x)P_{\vec w}(y\ |\ \vec x)logP_{\vec w}(y\ |\ \vec x)+\sum^n_{i=1}w_i\Big[\sum_{\vec x,\ y}\hat P(\vec x,\ y)f_i(\vec x,\ y)-\sum_{\vec x,\ y}P_{\vec w}(y\ |\ \vec x)\hat P(\vec x)f_i(\vec x,\ y)\Big]\ \leftarrow$ $\ \sum_{y}P_{\vec w}(y\ |\ \vec x)=1$ ，所以带 $w_0$ 的那一项就没了

$\quad\quad\ \ =\sum_{\vec x,\ y}\hat{P}(\vec x)P_{\vec w}(y\ |\ \vec x)\Big[logP_{\vec w}(y\ |\ \vec x)-\sum^n_{i=1}w_if_i(\vec x,\ y)\Big]+\sum_{\vec x,\ y}\hat P(\vec x,\ y)\sum^n_{i=1}w_if_i(\vec x,\ y)$

$\quad\quad\ \ =\sum_{\vec x,\ y}\hat P(\vec x,\ y)\sum^n_{i=1}w_if_i(\vec x,\ y) + \sum_{\vec x,\ y}\hat{P}(\vec x)P_{\vec w}(y\ |\ \vec x)\Big[\sum^n_{i=1}w_if_i(\vec x,\ y)-logZ_{\vec w}(\vec x)-\sum^n_{i=1}w_if_i(\vec x,\ y)\Big]$

$\quad\quad\ \ =\sum_{\vec x,\ y}\hat P(\vec x,\ y)\sum^n_{i=1}w_if_i(\vec x,\ y) - \sum_{\vec x,\ y}\hat{P}(\vec x)P_{\vec w}(y\ |\ \vec x)logZ_{\vec w}(\vec x)$

$\quad\quad\ \ =\sum_{\vec x,\ y}\hat P(\vec x,\ y)\sum^n_{i=1}w_if_i(\vec x,\ y) - \sum_{\vec x}\hat{P}(\vec x)logZ_{\vec w}(\vec x)\sum_{y}P_{\vec w}(y\ |\ \vec x)\ \leftarrow$ 再次用到 $\ \sum_{y}P_{\vec w}(y\ |\ \vec x)=1$

$\quad\quad\ \ =\sum_{\vec x,\ y}\hat P(\vec x,\ y)\sum^n_{i=1}w_if_i(\vec x,\ y) - \sum_{\vec x}\hat{P}(\vec x)logZ_{\vec w}(\vec x)$

之后求对偶问题的外部极大化解： $\underset{\vec w}{max}\ \Psi(\vec w)$

$\color{red}\Psi(\vec w)=\sum_{\vec x,\ y}\hat P(\vec x,\ y)\sum^n_{i=1}w_if_i(\vec x,\ y) - \sum_{\vec x}\hat{P}(\vec x)logZ_{\vec w}(\vec x)$

可以用梯度下降等优化算法算出最优权值： $\vec{w}^*$

于是， $P_{\vec {w}^*}(y\ |\ \vec x)$ 就是最大熵模型的解。

对于每个具体问题，构造出的最大熵模型的第一步求解 $\underset{P\in C}{min}\ \mathcal{L}(P,\ \vec w)$ 都是一样的，所以我们把最大熵模型的 “学习” 归结为对偶函数 $\Psi(\vec w)$ 的极大化。最大熵模型即可被概括成由上面 (♠) 式表示的条件概率分布。

下面证明对 $\Psi(\vec w)$ 的极大化等价于对最大熵模型的极大似然估计。

回顾一下从训练数据集中统计出的经验概率分布： $\begin{cases} \hat{P}(\vec X=\vec x,\ Y=y)=\frac{Count(\vec X=\vec x,\ Y=y)}{N}\\ \hat{P}(\vec X=\vec x)=\frac{Count(\vec X=\vec x)}{N}\end{cases}$

在数据采集得足够好时，数据中的经验概率分布就是真实的概率分布。

$Likelihood_{\hat P}(P_{\vec w})=log\displaystyle\prod_{\vec x,\ y}P_{\vec w}(y\ |\ \vec x)^{Count(\vec X=\vec x,\ Y=y)}$

$\quad\quad\quad\quad\quad\quad\quad\quad=log\displaystyle\prod_{\vec x,\ y}P_{\vec w}(y\ |\ \vec x)^{\frac{Count(\vec X=\vec x,\ Y=y)}{N}}\ \leftarrow$ 对这个式子的极大化等于对上式的极大化

$\quad\quad\quad\quad\quad\quad\quad\quad=log\displaystyle\prod_{\vec x,\ y}P_{\vec w}(y\ |\ \vec x)^{\hat P(\vec X=\vec x,\ Y=y)}$

$log[Likelihood_{\hat P}(P_{\vec w})]=\displaystyle\sum_{\vec x,\ y}\hat P(\vec x,\ y)logP_{\vec w}(y\ |\ \vec x)$

$\quad\quad\quad\quad\quad\quad\quad\quad\quad\ \ =\displaystyle\sum_{\vec x,\ y}\hat P(\vec x,\ y)\sum^n_{i=1}w_if_i(\vec x,\ y)-\displaystyle\sum_{\vec x,\ y}\hat P(\vec x,\ y)logZ_{\vec w}(\vec x)$

$\quad\quad\quad\quad\quad\quad\quad\quad\quad\ \ =\displaystyle\sum_{\vec x,\ y}\hat P(\vec x,\ y)\sum^n_{i=1}w_if_i(\vec x,\ y)-\displaystyle\sum_{\vec x,\ y}\hat P(\vec x)logZ_{\vec w}(\vec x)$

$\quad\quad\quad\quad\quad\quad\quad\quad\quad\ \ =\Psi(\vec w)\ \leftarrow$ 已证明对偶函数 $\Psi(\vec w)$ 等于对数似然函数 $log[Likelihood_{\hat P}(P_{\vec w})]$

这样，最大熵模型的学习就可以转换为具体求解对数似然函数极大化问题。

小结

再贴一遍最大熵模型的条件概率表达式：

\color{red}P_{\vec w}(y\ |\ \vec x)=

\color{red}\frac{exp\big\{\sum^n_{i=1}w_if_i(\vec x,\ y)\big\}}{Z_{\vec w}(\vec x)}，

$\color{red}Z_{\vec w}(\vec x)=\sum_{y}exp\big\{\sum^n_{i=1}w_if_i(\vec x,\ y)\big\}$

文章快讲完了，我终于要说到逻辑斯蒂回归了，题目不是说要谈它和最大熵模型的血缘关系嘛，下面开始滴血验亲：

令 $f_i(\vec x,\ y)=\begin{cases}x_i\ \leftarrow\ \color{#8AD597}特征向量\ \vec x\ 的第 i 维\color{black}\quad If\ y=1\ (正例) \\ 0\quad\ If\ y=0\ (反例)\end{cases}$ ， $\quad i=1,2,..,V$

$V$ 代表特征向量的维度

可能这里有点疑问，因为一开始定义的 $f_i(\vec x,\ y)$ 不本来是取值为1和0的二值函数嘛。不过我觉得不需要纠结在这些细节，因为一共有多少个 $f_i$ 是自己定的，这完全就是乘一个系数的问题，可以用很多个 $f_i$ 相加来替代。比如可以设定共有 $x_1+x_2+...+x_V$ 个二值特征函数，然后规定 $w_1-w_{x_1}$ 全部相等， $w_{x_1+1}-w_{x_1+x_2}$ 全部相等，…， $w_{x_1+...+x_{V-1}}-w_{x_1+...+x_V}$ 全部相等。这里只是提供一点思路，主要想说明的是在设计 $f_i$ 是非常灵活的。

根据上面对 $f_i(\vec x,\ y)$ 的定义，可以算出这些东西：

$Z_{\vec w}(\vec x)=\displaystyle\sum_{y=1,\ 0}exp\big\{\sum^V_{i=1}w_if_i(\vec x,\ y)\big\}=exp\big\{\sum^V_{i=1}w_ix_i\big\}+exp\{0\} = 1+exp(\vec w^T \vec x)$

$P_{\vec w}(y=1\ |\ \vec x)=$ $\frac{exp(\vec w^T \vec x)}{1+exp(\vec w^T \vec x)}=\frac{1}{1+exp(-\vec w^T \vec x)}$

$P_{\vec w}(y=1\ |\ \vec x)=$ $\frac{1}{1+exp(\vec w^T \vec x)}$

通过合理的设计特征函数，并代入最大熵模型的概率表达式后，我们得到了逻辑斯蒂回归的条件概率表达式。可以说，逻辑斯蒂模型就是一个最大熵模型！它符合最大熵的思想。

它们俩的关系大概是爸爸和儿子的关系，最大熵模型更加 general，因为它未规定特征函数的具体形式。

写在最后

① 从概率论角度，Logistic Regression 符合极大似然思想，意味着最优模型能使我们看到现有样本数据的概率最大。

② 从信息论角度，Logistic Regression 的优化过程等价于对交叉熵的最小化，意味着最优模型模拟的分布与真实分布的 K-L 散度最小。

③ 同时，Logistic Regression 满足最大熵思想，意味着它是在所有满足约束条件的模型集合中，不确定的部分分布最均匀的模型。此处的约束是： $P(Y\ |\ \vec X)$ 服从 $Bernoulli$ 分布，其次， $P(Y\ |\ \vec X)$ 是 $\vec x$ 的线性函数，即 $P(Y=y\ |\ \vec X=\vec x)=f(\vec w^T\vec x)$ 。满足这些约束之后使熵最大化推出的 $f$ 就是 sigmoid。

那么 ② 和 ③ 都是信息论的视角，为什么让一个熵最小一个熵最大呢？这块不要搞混哈。“找到满足约束条件的模型中熵最大的模型” 可以分解为两步：

Max Entropy 管的是那些约束条件约束不到的范围，让概率分布尽可能均匀。这一步就是对偶问题的第一步，确定了一般形式，但没确定具体参数。
Cross Entropy 管的是能约束到的范围。即在已知样本数据的分布后，让模拟的分布和数据中的分布越相近越好。这一步是对偶问题的第二步，用最大似然确定最优参数。

而我们在训练 Logistic Regression 的时候，是采用了最大熵模型的一般形式（采用对偶问题第一步的解），规定了 $f_i$ 的具体细节，并且用梯度下降等优化方法确定了具体参数的最优解（解决对偶问题的第二步，此处用 Logistic loss / Maximum Likelihood loss / Cross Entropy loss 都等价）。

哇，虽然这篇文章的主角一直是 Logistic Regression，自带甩不掉的主角光环，但原来最大熵模型才是最大的Boss！

撒花表情包

啊你终于看完了这篇 Toooo Loooooooong 的文章，撒个花吧！

本博客仅为作者记录学习笔记和心得之用，不免有细节不严谨之处，欢迎指正，不胜感激！如需转载，请附上本文链接：https://blog.csdn.net/weixin_43928665/article/details/106826264

Reference：

李航《统计学习方法》（第2版）
Thomas M. Cover Joy A. Thomas 《Elements of Information Theory》(Second Edition)

Logistic Regression 的前世今生（理论篇）
逻辑回归与朴素贝叶斯的区别
 逻辑回归(对数几率回归)和朴素贝叶斯分类器的对比
 常见回归和分类损失函数比较
 交叉熵损失函数原理详解
 为什么 LR 模型要使用 sigmoid 函数，背后的数学原理是什么？
最大似然估计与交叉熵的关系
 交叉熵（Cross-Entropy）与最大似然

细讲逻辑斯蒂回归与朴素贝叶斯、最大熵原理的爱恨交织（长文）