TensorFlow:Word2Vec

Word2Vec

记得之前接触NLP是用朴素贝叶斯分类器来判断语句是否文明。用的独热编码,但是当词库巨大时,会变得很稀疏,而且词和词的关联完全看不出来,因此引入词汇分布式表示。

  • 将vector每一个元素由整形改为浮点型,变为整个实数范围的表示;
  • 将原来稀疏的巨大维度压缩嵌入到一个更小维度的空间;

Word2Vec是用来进行词嵌入的模型。有两种训练模式:

  • CBOW (Continuous Bag-of-Words Model):通过上下文预测当前词
  • Skip-gram (Continuous Skip-gram Model):通过词语预测上下文

学习原理,这什么玩意儿啊,先冷静一会儿。

猜你喜欢

转载自blog.csdn.net/weixin_42231070/article/details/82936571