FastText词向量表示

编程语言 2018-11-07 12:06:24 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/u012931582/article/details/83818374

论文《Enriching Word Vectors with Subword Information》

介绍

FastText的作者也就是word2vec的作者，所以两者是一脉相承的。
目前的词向量模型都是把每一个单词作为单独的向量，并没有考虑词语的内部结构，那么FastText相比于word2vec的创新就是考虑了词语的形态构成，也就是加上了sub-word的信息，这样的好处在于对于词汇量很大的语言，通常有很多未登录词的这种，也可以通过sub-word去构成word进行词向量表示。

模型

关于模型就不细讲了，就是一个skipgram model with negative，和word2vec一样的，公式如下：
在这里插入图片描述
C_t表示上下文范围内的单词，N_t,c表示负样本，其中l表示：

s表示score function，这里用：

subword model

整篇文章最主要的创新点就在于这个subword model，对于每一个单词w，拆分成字符n-gram进行表示，并且加入了尖括号<>在单词外面，因为这样可以区分前缀和后缀，比如一个单词where如果用3-gram来表示，那么可以表示为：
在这里插入图片描述
以及:

那么在模型训练的时候计算scoring function的时候，当前单词的词向量就用n-gram的向量的和：

其中z_g表示n-gram的向量。

结果

用人工标记的单词相似度来衡量几个模型的效果。作为baseline的模型是skipgrim和cbow，由于FastText相对于baseline的一大优势在于可以输出未登录词的词向量，所以增加了一个比对的模型，sisg-，这个模型也是FastText，只不过将所有未登录词输出变为NULL，这样可以比对在失去对未登录词的适应性这个优势的时候，FastText效果如何，从下表可以看出，即使将未登录词输出都变为NULL，结果也依然不弱于两个baseline，如果是正常的FastText，sisg优势就更加明显了。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/u012931582/article/details/83818374

FastText词向量表示

词的向量表示

高级词向量表示

05词向量表示理论篇

cs224n | 高级词向量表示

cs224d---词向量表示

【NLP篇-基础汇总】词向量表示比较

(02)第二讲词向量表示

NLP︱高级词向量表达（二）——FastText（简述、学习笔记）

文本的向量表示

自然语言处理学习笔记6：向量距离之高级的词向量表示

直线的向量表示法

cs224n | 词向量表示：word2vec

CS224n课堂笔记2-词的向量表示：word2vec

[cs224n].2 词向量表示word2vec

CS224n 词的向量表示word2vec 之cbow（softmax negSampling ）

CS224n 词的向量表示word2vec 之skipgram （Negative sampling ）

(03)第三讲高级词向量表示(待整理)

【CS224n笔记 (2) 】词向量表示word2vec

【NLP】词向量之fastText原理

paddle词向量的表示

数据的向量表示及降维问题

自然语言处理中传统词向量表示VS深度学习语言模型（三）：word2vec词向量

自然语言处理中传统词向量表示VS深度学习语言模型（二）

自然语言处理中传统词向量表示VS深度学习语言模型（一）

知识图谱的知识表示：向量表示方法

词嵌入，词向量，语言表示

李沐第十七课《词向量-Glove和fastText》

极简使用︱Gemsim-FastText 词向量训练与使用

词表征 3：GloVe、fastText、评价词向量、重新训练词向量

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)