【代码模版】基于gensim的word2vec基本实现框架 - 代码天地

【代码模版】基于gensim的word2vec基本实现框架

其他 2020-03-11 21:55:47 阅读次数: 0

# 加载自定义词典，去停用词分词函数不再赘述
# 最终文本处理结果data是符合gensim格式要求的list of list格式

from gensim.models.word2vec import Word2Vec

# 初始化word2vec模型
w2c = Word2Vec(size=300, min_count=n)
# Word2Vec实例化的参数：
# size=100，每个词向量的维度，文本量大时300/500为佳
# window=5，考虑上下文关系的范围
# min_count=5，过滤低频词参考的最小阈值，小于该值过滤

# 建立词典
w2c.build_vocab(data)

# 对模型进行训练
w2c.train(data, total_examples=w2c.corpus_count, epochs=10)
# w2c.train的参数：
# total_examples=w2c.corpus_count 必填，文本语料的句子总数。当成固定格式记住即可。
# epochs=None，模型需要迭代的次数

# 模型训练完后每个词变成向量的结果展示
print(w2c.wv['单词'].shape)
w2c.wv['单词']
# 利用模型查看词与指定词相似的词
w2c.wv.most_similar('单词', topn=n)
# 计算两个词的相似度
print(w2c.wv.similarity('单词1', '单词2'))
# 寻找不合群的词
w2c.wv.doesnt_match("单词1 单词2 单词3 ...".split(" "))

不停下脚步的乌龟

发布了43 篇原创文章 · 获赞 0 · 访问量 1778

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_44680262/article/details/104794508

【代码模版】基于gensim的word2vec基本实现框架

基于 Gensim 的 Word2Vec 实践

基于Gensim的Word2Vec的应用

基于分词+停用词处理使用Gensim实现Word2Vec

用gensim实现word2vec 和 glove

gensim Word2vec实战

Gensim Word2vec 使用教程

Python Gensim Word2vec

gensim中word2vec的使用

gensim：word2vec实战

翻译Gensim的word2vec说明

gensim中word2vec

gensim word2vec API概述

利用Gensim 训练 Word2Vec

基于tensorflow实现word2vec

使用gensim框架及Word2Vec词向量模型获取相似词

word2vec的应用：gensim相似度检测（附代码）

word2vec词向量训练及gensim的使用

python gensim下使用Word2vec

词向量—Word2Vec入门及Gensim实践

gensim中word2vec训练向量

【NLP】【五】gensim之Word2Vec

使用gensim训练中文语料word2vec

NLP：Gensim库之word2vec

gensim中word2vec python源码理解（一）

gensim Word2Vec 训练和使用

机器学习：gensim之Word2Vec 详解

gensim的word2vec如何得出词向量（python）

Gensim错误'Word2Vec' object has no attribute 'vocab'

from gensim.models import Word2Vec

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)