自然语言处理之LDA主题模型文本主题模型之LDA(一) LDA基础

1、LDA概述

　　在机器学习领域，LDA是两个常用模型的简称：线性判别分析（Linear Discriminant Analysis）和隐含狄利克雷分布（Latent Dirichlet Allocation）。本文的LDA仅指代Latent Dirichlet Allocation. LDA 在主题模型中占有非常重要的地位，常用来文本分类。

　　LDA是基于贝叶斯模型的，涉及到贝叶斯模型离不开“先验分布”，“数据（似然）”和"后验分布"三块。在贝叶斯学派中有：

　　　　先验分布 + 数据（似然）= 后验分布

　　这点其实很好理解，因为这符合我们人的思维方式，比如你对好人和坏人的认知，先验分布为：100个好人和100个的坏人，即你认为好人坏人各占一半，现在你被2个好人（数据）帮助了和1个坏人骗了，于是你得到了新的后验分布为：102个好人和101个的坏人。现在你的后验分布里面认为好人比坏人多了。这个后验分布接着又变成你的新的先验分布，当你被1个好人（数据）帮助了和3个坏人（数据）骗了后，你又更新了你的后验分布为：103个好人和104个的坏人。依次继续更新下去。

2、预备知识

2.1 词袋模型

　　LDA 采用词袋模型。所谓词袋模型，是将一篇文档，我们仅考虑一个词汇是否出现，而不考虑其出现的顺序。在词袋模型中，“我喜欢你”和“你喜欢我”是等价的。与词袋模型相反的一个模型是n-gram，n-gram考虑了词汇出现的先后顺序。

2.2 二项分布

　　伯努利分布是只有两种可能结果的单次随机试验，二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布，即为X ~ B(n, p). 概率密度公式为：

2.3 多项分布

　　多项式分布(Multinomial Distribution)是二项式分布的推广。二项式做n次伯努利实验，规定了每次试验的结果只有两个，如果现在还是做n次试验，只不过每次试验的结果可以有多k个，且k个结果发生的概率互斥且和为1，则发生其中一个结果X次的概率就是多项式分布。概率密度函数为：

2.4 Beta分布

　　beta分布可以看作一个概率的概率分布，当你不知道一个东西的具体概率是多少时，它可以给出了所有概率出现的可能性大小。

　　假设此时的二项分布为

　　贝叶斯估计为

　　现在我们有了二项分布的似然函数和beta分布，现在我们将beta分布代进贝叶斯估计中的 $P (θ)$

$P (θ)$

$P (θ)$ $a^{'} = a + z, b^{'} = b + N - z$

$a^{'} = a + z, b^{'} = b + N - z$

　　如上面这种形式，先验分布和后验分布的形式是同一种分布，像这样的分布我们称为共轭分布，而和二项分布共轭的分布就是Beta分布。

　　而共轭的意思是，以Beta分布和二项式分布为例，数据符合二项分布的时候，参数的先验分布和后验分布都能保持Beta分布的形式，这种形式不变的好处是，我们能够在先验分布中赋予参数很明确的物理意义，这个物理意义可以延续到后续分布中进行解释，同时从先验变换到后验过程中从数据中补充的知识也容易有物理解释。

$a^{'} = a + z, b^{'} = b + N - z$ 2.5 狄利克雷分布

　　狄利克雷分布是多项分布的共轭分布，也是Beta分布的一般形式。概率密度函数如下：