Latent Dirichlet Allocation(LDA)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/github_38325884/article/details/80537299

LDA是常用主题模型,解决了传统Bayesian Model不善于应对的“一词多义/多词一义”问题。模型基于Dirichlet分布和Gibbs Sampling,通过对语法的分析推测出文章最可能的主题,属于无监督模型。主要应用于信息提取,文档分类/聚类,文章摘要,社区挖掘等等NLP领域。

1. Naive Bayesian文本分类的局限性

基于Naive Bayesian进行文本分类,主要是对每一个词进行主题映射。比如说“足球”会被映射到“体育”主题,“芦荟”会被映射到“植物”主题。但是弊端在于,对于同一个词,可能在不同语境下应该被映射到不同的主题,比如“苹果”可能是指这个水果本身,也有可能是指苹果公司。类似的情况,因为同一个词的映射相同,因此对于一词多义现象处理能力较一般,vice versa。

2. GAMMA函数

GAMMA函数是阶乘在实数域上面的推广。对GAMMA函数的积分形式进行分部积分求解:

因此有:

GAMMA函数会在之后的Dirichlet分布中用到。

3. BETA分布与Dirichlet分布

对于函数f(p) = p^m * (1-p)^n,因为当p=0或p=1时函数值为0,且中间的指数使得

4. LDA

5. Gibbs Sampling

猜你喜欢

转载自blog.csdn.net/github_38325884/article/details/80537299