1、简介
word2vec是一个简化的神经网络模型,只有输入层,映射层,输出层。
2、架构
-
CBOW架构,以该词的上下文预测该词;
-
Skip-Gram架构,以该词预测该词的上下文。
其中CBOW计算量相对于Skip-Gram较低一些,具体可见下文两种方式的目标函数。
3、优化方式
-
Hierarchical Softmax (赫夫曼树+逻辑回归)
-
Negative Sampling (负采样)
3.1 Hierarchical Softmax (赫夫曼树+逻辑回归)
根据词频构建Huffman tree,下文公式的中 为词的路径 节点对应的Huffman编码(0,1)。
3.1.1目标函数
,
3.1.2 CBOW架构目标函数
3.1.3 Skip-Gram架构目标函数
3.2 Negative Sampling(负采样)
负采样规则,某词被采到的概率和该词的出现的频率成正相关(去除到无意义的高频词,如:是,的,等)。
3.2.1目标函数
,