训练词向量 - 代码天地

训练词向量

其他 2018-10-31 19:24:55 阅读次数: 0

 1 def word_vector_gener():
 2     """
 3     几种不同的方法来生成词向量
 4     :return:
 5     """
 6     from gensim.models import Word2Vec
 7     from gensim.test.utils import common_texts
 8     # 1.word2vec
 9     # 获取原始数据
10     DATA_PATH = './word2vec_data.txt'
11     word2evctor = open('./word2vector.txt', 'w', encoding='utf8')
12     word_list = []
13     finall = []
14     # jieba分词
15     with open(DATA_PATH, 'r', encoding='utf8') as file:
16         for each_line in file.readlines():
17             # 分词
18             cut_word = list(jieba.cut(each_line.strip()))
19             # 去停用词
20             stopwords = [w.strip() for w in open('./stop_words.txt', 'r', encoding='utf8')]
21             temp = []
22             for each in cut_word:
23                 if each not in stopwords and each.strip():
24                     temp.append(each)
25                     word_list.append(each)
26             finall.append(temp)
27     # 训练模型
28     model = Word2Vec(finall, size=100, window=1, min_count=1, workers=4)
29     model.save('./word2vec_model.')
30     # 查看词向量
31     for word in list(set(word_list)):
32         content = str(word) + '\t' + str(model[word])
33         word2evctor.write(content+'\n')
34         print(content)
35 
36 
37     print('ok')
38 
39 
40 if __name__ == '__main__':
41     word_vector_gener()

猜你喜欢

转载自www.cnblogs.com/demo-deng/p/9885157.html

训练词向量

词向量训练原理

转载训练词向量

glove训练词向量

训练词向量实战

词向量训练

词向量的训练

使用gensim训练词向量

训练自己的词向量模型

实验——wiki训练词向量

Glove预训练词向量

word2vec训练词向量

DNN模型训练词向量原理

Keras中加载预训练的词向量

使用 rnn 训练词向量模型

ELMO词向量训练模型原理

tensorflow试用训练好的词向量

使用genism训练词向量【转载】

05[NLP训练营]词向量

Python word2vec训练词向量，电子病历训练词向量，超简单训练电子病历的词向量，医学电子病历词向量预训练模型

比赛必备︱省力搞定三款词向量训练 + OOV词向量问题的可性方案

词表征 3：GloVe、fastText、评价词向量、重新训练词向量

自然语言处理从入门到应用——动态词向量预训练：ELMo词向量

字和词语联合训练的词向量模型

word2vec词向量训练及gensim的使用

维基百科语料库训练词向量

各种预训练的词向量(Pretrained Word Embeddings)

利用最大熵模型来训练词向量

KNN、贝叶斯来训练词向量

在Keras模型中使用预训练的词向量

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)