【代码模版】基于gensim的word2vec基本实现框架

# 加载自定义词典,去停用词分词函数不再赘述
# 最终文本处理结果data是符合gensim格式要求的list of list格式

from gensim.models.word2vec import Word2Vec

# 初始化word2vec模型
w2c = Word2Vec(size=300, min_count=n)
# Word2Vec实例化的参数:
# size=100,每个词向量的维度,文本量大时300/500为佳
# window=5,考虑上下文关系的范围
# min_count=5,过滤低频词参考的最小阈值,小于该值过滤

# 建立词典
w2c.build_vocab(data)

# 对模型进行训练
w2c.train(data, total_examples=w2c.corpus_count, epochs=10)
# w2c.train的参数:
# total_examples=w2c.corpus_count 必填,文本语料的句子总数。当成固定格式记住即可。
# epochs=None,模型需要迭代的次数

# 模型训练完后每个词变成向量的结果展示
print(w2c.wv['单词'].shape)
w2c.wv['单词']
# 利用模型查看词与指定词相似的词
w2c.wv.most_similar('单词', topn=n)
# 计算两个词的相似度
print(w2c.wv.similarity('单词1', '单词2'))
# 寻找不合群的词
w2c.wv.doesnt_match("单词1 单词2 单词3 ...".split(" "))
发布了43 篇原创文章 · 获赞 0 · 访问量 1778

猜你喜欢

转载自blog.csdn.net/weixin_44680262/article/details/104794508