gensim 使用三 LDA模型使用 - 代码天地

gensim 使用三 LDA模型使用

其他 2018-12-18 22:13:49 阅读次数: 0

1、语料的处理：通过corpora.Dictionary把原始文本数据转为字典。将用字符串表示的文档转换为用id表示的文档向量。

因为输入数据为csv中的一列数据，故先进行预处理使其变为train[]样式的数据。

stopwords = [line.strip() for line in open('./stopword.txt', 'r',encoding='utf-8').readlines()]
def chinese_word_cut(mytext):
    seg_list = []
    seg_text = jieba.cut(mytext)
    for word in seg_text:
        if word not in stopwords:
            seg_list.append(word)
    return " ".join(seg_list)
df = pd.read_csv("datascience.csv",encoding='gb18030')
df["content_cutted"] = df.content.apply(chinese_word_cut)
train = []
for i in range(len(df["content_cutted"])):
    line = df["content_cutted"][i]
    line = line.split()
    train.append([w for w in line])
    #print(len(train))
    #print(train)
print(len(train))
dictionary = corpora.Dictionary(train)
corpus = [dictionary.doc2bow(text) for text in train]

2、生成LDA模型：三个参数，corpus id2word num_topics。

lda = models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=8)

3、判断某个文档所属topic以及其关键词

test_doc=train[2]#查看训练集中第三个样本的主题分布
doc_bow = dictionary.doc2bow(test_doc)      #文档转换成bow
doc_lda = lda[doc_bow]                   #得到新文档的主题分布
#输出新文档的主题分布
print (doc_lda)
for topic in doc_lda:
    print ("%s\t%f\n"%(lda.print_topic(topic[0]), topic[1]))

4、模型保存与加载

lda.save('zhwiki_lda.model')
lda = models.ldamodel.LdaModel.load('zhwiki_lda.model')

4，几篇博客

https://blog.csdn.net/u010297828/article/details/50464845

https://blog.csdn.net/accumulate_zhang/article/details/62453672

http://www.cnblogs.com/chenbjin/p/5638904.html

猜你喜欢

转载自blog.csdn.net/qq_34333481/article/details/84648201

gensim 使用三 LDA模型使用

gensim使用

gensim主题模型使用

使用gensim中的lda模型训练主题分布--print_topics使用

使用gensim实现lda，并计算perplexity（ gensim Perplexity Estimates in LDA Model）

gensim使用汇总

在python中安装gensim包（为了使用LDA）

python 数据挖掘篇三 gensim 使用

gensim使用-初识gensim安装与TF-IDF使用

开始使用gensim入门

使用gensim训练词向量

NLP神器——gensim工具使用

gensim中正确使用姿势

【gensim中文教程】开始使用gensim

gensim 使用之二从gensim到sklearn的格式转换

LDA 以及 Gensim 实现

Gensim and LDA: a quick tour

gensim---LDA---perplexity

gensim lda训练

Gensim中动态主题模型之dtmmodel的使用

gensim使用方法以及例子

Gensim Word2vec 使用教程

【gensim.word2vec使用】

gensim中word2vec的使用

gensim库的一些使用

使用Gensim构造词向量（简单版）

Gensim用LDA模型计算文档相似度

文本主题抽取：用gensim训练LDA模型

鬼吹灯文本挖掘4：LDA模型提取文档主题 sklearn LatentDirichletAllocation和gensim LdaModel 鬼吹灯文本挖掘3：关键词提取和使用sklearn 计算TF-IDF矩阵

gensim做主题模型

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)