word2vec 算法

word2vec 是一个NLP工具,它的特点是:将词向量化,这样就可以度量词与词之间的关系。

词向量的表示:

1.one hot representation   向量的维度是所有不同词的个数,这个词出现,就在对应的位置置为1

2.distributed representation  把一个词映射到一个较短的向量上

3.CBOW(Continuous Bag-of-Words) 根据上下文的词语预测当前词语出现的概率

4.Skip-Gram    输入是当前词语,预测是上下文词语。与CBOW正好相反。

word2vec 是一种类似神经网络的结构,使用CBOW和Skip-Gram训练模型得到词向量。使用霍夫曼树代替隐藏层和输出层的神经元。霍夫曼树的叶子节点起到输出神经元的作用。叶子节点的个数即词汇表的大小。输入层到隐藏层的映射采用对所有输入词向量求和并取平均,而不是线性变换加激活函数

猜你喜欢

转载自blog.csdn.net/u011243684/article/details/85061043