word2vec 是一个NLP工具,它的特点是:将词向量化,这样就可以度量词与词之间的关系。
词向量的表示:
1.one hot representation 向量的维度是所有不同词的个数,这个词出现,就在对应的位置置为1
2.distributed representation 把一个词映射到一个较短的向量上
3.CBOW(Continuous Bag-of-Words) 根据上下文的词语预测当前词语出现的概率
4.Skip-Gram 输入是当前词语,预测是上下文词语。与CBOW正好相反。
word2vec 是一种类似神经网络的结构,使用CBOW和Skip-Gram训练模型得到词向量。使用霍夫曼树代替隐藏层和输出层的神经元。霍夫曼树的叶子节点起到输出神经元的作用。叶子节点的个数即词汇表的大小。输入层到隐藏层的映射采用对所有输入词向量求和并取平均,而不是线性变换加激活函数