使用gensim中的lda模型训练主题分布--print_topics使用 - 代码天地

使用gensim中的lda模型训练主题分布--print_topics使用

其他 2018-07-08 19:44:26 阅读次数: 0

转载：https://blog.csdn.net/accumulate_zhang/article/details/62453672

一直在寻找各种大神的LDA算法，不过调试一直没有成功，最后还是选择使用gensim的LDA工具来训练自己的文本数据吧。

#coding=utf-8
import codecs
from gensim import corpora
from gensim.models import LdaModel
from gensim.corpora import Dictionary
fr=open( 'cleanChiSegments.txt', 'r')
train=[]
for line in fr.readlines():
line=line.split( ' ')
train.append(line)
print len(train)
print ' '.join(train[ 2])
dictionary = corpora.Dictionary(train)
corpus = [ dictionary.doc2bow(text) for text in train ]
lda = LdaModel(corpus=corpus, id2word=dictionary, num_topics= 100)
topic_list=lda.print_topics( 20)
print type(lda.print_topics( 20))
print len(lda.print_topics( 20))
for topic in topic_list:
print topic
print "第一主题"
print lda.print_topic( 1)
print '给定一个新文档，输出其主题分布'
#test_doc = list(new_doc) #新文档进行分词
test_doc=train[ 2] #查看训练集中第三个样本的主题分布
doc_bow = dictionary.doc2bow(test_doc) #文档转换成bow
doc_lda = lda[doc_bow] #得到新文档的主题分布
#输出新文档的主题分布
print doc_lda
for topic in doc_lda:
print "%s\t%f\n"%(lda.print_topic(topic[ 0]), topic[ 1])

----------------------------------------------------------下面输出上面工具代码的运行结果---------------------------------------------------

下面输出的是前20个topic-word分布

对训练集中第三个样本测试，基于训练集得到的主题模型，输出其主题分布。

即表示新文本的doc-topic分布，以及每个主题下的topic-word分布

扫描二维码关注公众号，回复： 1950909 查看本文章

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/accumulate_zhang/article/details/62453672

个人分类：机器学习 word2vec

转载：https://blog.csdn.net/accumulate_zhang/article/details/62453672

一直在寻找各种大神的LDA算法，不过调试一直没有成功，最后还是选择使用gensim的LDA工具来训练自己的文本数据吧。

#coding=utf-8
import codecs
from gensim import corpora
from gensim.models import LdaModel
from gensim.corpora import Dictionary
fr=open( 'cleanChiSegments.txt', 'r')
train=[]
for line in fr.readlines():
line=line.split( ' ')
train.append(line)
print len(train)
print ' '.join(train[ 2])
dictionary = corpora.Dictionary(train)
corpus = [ dictionary.doc2bow(text) for text in train ]
lda = LdaModel(corpus=corpus, id2word=dictionary, num_topics= 100)
topic_list=lda.print_topics( 20)
print type(lda.print_topics( 20))
print len(lda.print_topics( 20))
for topic in topic_list:
print topic
print "第一主题"
print lda.print_topic( 1)
print '给定一个新文档，输出其主题分布'
#test_doc = list(new_doc) #新文档进行分词
test_doc=train[ 2] #查看训练集中第三个样本的主题分布
doc_bow = dictionary.doc2bow(test_doc) #文档转换成bow
doc_lda = lda[doc_bow] #得到新文档的主题分布
#输出新文档的主题分布
print doc_lda
for topic in doc_lda:
print "%s\t%f\n"%(lda.print_topic(topic[ 0]), topic[ 1])

----------------------------------------------------------下面输出上面工具代码的运行结果---------------------------------------------------

下面输出的是前20个topic-word分布

对训练集中第三个样本测试，基于训练集得到的主题模型，输出其主题分布。

即表示新文本的doc-topic分布，以及每个主题下的topic-word分布

猜你喜欢

转载自blog.csdn.net/m0_37870649/article/details/80897406

使用gensim中的lda模型训练主题分布--print_topics使用

gensim主题模型使用

文本主题抽取：用gensim训练LDA模型

gensim 使用三 LDA模型使用

机器学习入门-贝叶斯构造LDA主题模型，构造word2vec 1.gensim.corpora.Dictionary(构造映射字典) 2.dictionary.doc2vec(做映射) 3.gensim.model.ldamodel.LdaModel(构建主题模型)4lda.print_topics(打印主题).

Python之酒店评论主题提取LDA主题模型文本主题抽取：用gensim训练LDA模型

python下进行lda主题挖掘(二)——利用gensim训练LDA模型

Gensim中动态主题模型之dtmmodel的使用

在python中安装gensim包（为了使用LDA）

gensim lda训练

在PYTHON中使用TMTOOLKIT进行主题模型LDA评估

gensim实现LDA主题模型-------实战案例（分析希拉里邮件的主题）

【NLP学习笔记】（二）gensim使用之Topics and Transformations

使用gensim实现lda，并计算perplexity（ gensim Perplexity Estimates in LDA Model）

使用gensim训练词向量

主题模型LDA及在推荐系统中的应用

鬼吹灯文本挖掘4：LDA模型提取文档主题 sklearn LatentDirichletAllocation和gensim LdaModel 鬼吹灯文本挖掘3：关键词提取和使用sklearn 计算TF-IDF矩阵

gensim做主题模型

python应用：主题分类（gensim lda）

如何确定LDA主题模型中的主题个数？

主题模型-LDA浅析

LDA主题模型

主题模型LDA

LDA主题模型笔记

LDA主题模型浅析

关于LDA主题模型

主题模型 LDA 入门

LDA 主题模型

主题模型LDA简介

LDA主题模型及案例

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)