Word2Vec报错：KeyError: "word 'XXX' not in vocabulary" - 代码天地

Word2Vec报错：KeyError: "word 'XXX' not in vocabulary"

其他 2020-02-23 10:25:10 阅读次数: 0

分类目录——情感识别

发生在想通过model['XXX']观察一下XXX的词向量的时候

原因一

最简单的原因就是这个词不在你做来做训练的语料库中
原因二

在定义模型时
```
model = word2vec.Word2Vec(sentences, min_count=5)
```
有一个min_count的属性，它的默认值是5，Word2Vec在训练时会忽略词频小于该属性值的词，可能你进行观察的这个词的词频太低，训练时没有被采用

解决方法是降低该值的设定
原因三
```
model = word2vec.Word2Vec(sentences, min_count=5)
```
中的sentences默认是按这种格式
```
[['str1', 'str2'],
 ['str2', 'str4'],
 ...
 ]
```
进行处理的，你传入的可能是一个整体的1维的此列表，它把你的一个词当成了一个句子列表，再进行拆分，把每个字当成一个词进行训练，多个字的词就都不在vocabulary中了

解决方法是在嵌套一层，传入[sentences]这样一个二维的此列表。
参考文献

https://stackoverflow.com/questions/45420466/gensim-keyerror-word-not-in-vocabulary?answertab=votes#tab-top

BBJG_001

发布了119 篇原创文章 · 获赞 86 · 访问量 5853

私信关注

猜你喜欢

转载自blog.csdn.net/BBJG_001/article/details/104405643

Word2Vec报错：KeyError: "word 'XXX' not in vocabulary"

Word2vec报错 KeyError word XX not in vocabulary

keyError："word 'XX' not in vocabulary"

训练Word2Vec报错：RuntimeError: you must first build vocabulary before training the model

Word2Vec训练 RuntimeError: you must first build vocabulary before training the model

word2vec

embedding与word2vec

[NLP] word2vec

word2vec简介

word2vec 介绍

word2vec的原理

word2vec 解析

word2vec笔记

word2vec总结

理解Word2Vec

Word2Vec理解

word2vec介绍

TensorFlow：Word2Vec

word2vec 笔记

Word2Vec模型

word2vec的理解

Word2Vec随记

word2vec 算法

word2vec初探

word2vec原理

Word2vec 详解

Word2vec教程

Word2vec资料

Word2Vec入门

[转] word2vec

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)