深度学习(自然语言处理)-词嵌入

前言:

由于最近在学习知识图谱的实体命名问题,在实验中,我们对于词语的处理使用word2vec进行降为因此对于这个工具,基本的情况需要进行了解.

10.1 词嵌入(word2vec)

10.1.1 为何不采用one-hot向量

one-hot向量表示词(字符为词), 假设一个词的索引为iii,为了得到该词的one-hot向量表示,我们创建一个全0的长为NNN的向量,并将其第iii位设成1.one-hot词向量无法准确表达不同词之间的相似度,如我们常常使用的余弦相似度

由于任何两个不同词的one-hot向量的余弦相似度都为0

它将每个词表示成一个定长的向量,并使得这些向量能较好地表达不同词之间的相似和类比关系。word2vec工具包含了两个模型,即跳字模型(skip-gram)[2] 和连续词袋模型(continuous bag of words,CBOW)

10.1.2 跳字模型

假设文本序列是“the”“man”“loves”“his”“son”。以“loves”作为中心词,设背景窗口大小为2。

关于SoftMax:https://blog.csdn.net/lz_peter/article/details/84574716

扩展到更为一般:

假设给定中心词的情况下背景词的生成相互独立,当背景窗口大小为mm时,跳字模型的似然函数即给定任一中心词生成所有背景词的概率

10.1.2.1. 训练跳字模型

10.1.3. 连续词袋模型

连续词袋模型假设基于某中心词在文本序列前后的背景词来生成该中心词

未完待续。。。

参考文献:

原文链接:https://zh.d2l.ai/chapter_natural-language-processing/word2vec.html

极大似然估计:http://fangs.in/post/thinkstats/likelihood/

softmax函数:https://blog.csdn.net/lz_peter/article/details/84574716

条件随机场 ConditionalRandom Field,CRF

猜你喜欢

转载自blog.csdn.net/qq_37457202/article/details/108697461
今日推荐