Sequence Models(Week2)---Natural Language Processing & Word Embeddings

(一)Introduction to word embeddings

一、Word Representation

用近300个特征值组成的向量来表示man这个单词

词嵌入是NLP中最重要的思想之一

二、Using word embeddings

词嵌入可以使得学习算法的推广性增强,如XXX is orange farmer识别出了XXX是人名,那么可以更好地识别出XXX is an apple farmer中XXX也是农民,因为orange与apple具有相同的相似性

这样的原因是学习词嵌入的算法可以检查大量的文本主体

扫描二维码关注公众号,回复: 5408606 查看本文章

下载网上已经训练好的词嵌入

encoding与embedding的含义基本一致,其实就是编码的意思

三、Properties of word embeddings

词嵌入也是词编码的属性,有助于推理类比

词嵌入可以应用于类比推理

四、Embedding matrix

(二)Learning word embeddings

五、Word2Vec

在上下文中选的词与目标词之间并非临近的关系

六、Negative Sampling

如何选取训练集?

K的取值,即选择负样本的数目,如果数据集较小,选取5~20即可;数据集较大,k取2~5

每次只训练5个逻辑回归单元,则包含K+1个样本,K个负样本+1个正样本,计算成本较低

训练K+1个二元分类问题,在每次迭代中会稍微容易些

启发式观察英文文本中的分布,到从均匀分布中采样,取观察到词频的3/4次方

这里也有事先训练过的词向量,下载其他人的词向量并作为出发点

七、GloVe word vectors

从特征化的视角出发,训练词向量,但出现的问题是,词嵌入矩阵的单个元素不一定是可以解释的

(三)Applycations using word embedding

一、Sentiment Classification

情感分类的一个挑战是可能缺乏一个很大的标签训练集,但使用词嵌入之后可以使用一个中等大小的标签集即可

训练集的数据可能在1万到10万之间,

方法一:

把句子中的每一个词用One-hot X 嵌入词矩阵(在更大的词汇量中已训练好)=词嵌入向量

再将句子中每个词的词嵌入向量相加求平均值,再输入softmax函数中,进行每类的预测

该方法对或长或短的评论均有效果,但存在的问题是忽视了单词之间的顺序

方法二:使用RNN

把每个词由one-hot变为词嵌入向量后,把每个词输入到RNN中

二、Debiasing word embeddings

在算法中消除不希望看到的偏见,如性别偏见、种族偏见等,讨论减少或消除在词嵌入时这些形式的偏差

猜你喜欢

转载自blog.csdn.net/weixin_38527856/article/details/87476875
今日推荐