算法岗面经汇总

字节跳动 3轮技术面 + 1轮hr面 最后还是挂了


word2vec原理

2013年Google提出

主要包含两个模型:

  • 跳字模型(skip-gram)
  • 连续词袋模型(continuous bag of words,简称CBOW)

两种高效训练的方法:

  • 负采样(negative sampling)
  • 层序softmax(hierarchical softmax)

较好地表达不同词之间的相似类比关系。

skip-gram: 使用中心词预测背景词
CBOW:使用背景词预测中心词,需要做投影层做平均

优化目标是:最大化给出中心词条件下背景词出现的概率

优化前,每次更新参数需要涉及词典中的全部词汇,复杂度是 O ( ∣ V ∣ ) O(|V|) O(V)

w2v如何负采样

猜你喜欢

转载自blog.csdn.net/TQCAI666/article/details/113769538