使用RNN训练语言模型 - 代码天地

使用RNN训练语言模型

其他 2018-07-15 22:11:35 阅读次数: 0

语言模型会估计某个句子序列各个单词出现的概率

如何构建语言模型？

为了使用RNN建立出这样的模型，首先我们需要一个训练集，包含一个很大的英文文本语料库（a corpus of English text），语料，即语言材料。其他语言也可。

标记化：Tokenize

建立一个字典，将每个单词转成一个one-hot向量，也就是字典中的索引。使用EOS标记附加到训练集中每个句子的结尾。

如果有些单词不在词典里（生词），可以把他替换为UNK（unkwon word），我们只针对UNK建立概率模型，而不针对具体的词。

标志化完成后，将输入的各个单词都映射懂了各个标志（token）上，或者说字典中的各个词上。

下一步我们要构建一个rnn来构建这些序列的概率模型。

第0个time-step，我们要计算激活项a<1>,它是以x<1>作为输入的函数，而

x<1>会被设为全为0的集合零向量。a<0>也是。

a<1>会通过softmax进行预测，计算第一个单词y<1>会是什么。

这一步要做的就是，通过一个softmax层预测字典中的任何一个词是第一个词的概率

如果字典中有10000个词，则softmax层的输出可能也有10000（+2）个(unk 、eos)。

下一个time-step使用激活项a<1>，我们要预测第二个单词是什么。现在我们依然传递给他们。

正确的第一个词y<1>(=x<2>),此时输出也是经过softmax层的输出，是字典中各个词出现的概率。

只考虑之前的单词。之后的预测以此类推。

：softmax的损失函数

：总损失即把各个单独预测的损失相加

预测三个单词的情况，概率相乘结果。（符合概率论中的条件分布，在已知y1的情况下预测y2，在已知y1、y2的情况下预测y3。三者相乘的概率等于直接预测三者是一个整体的概率）

猜你喜欢

转载自blog.csdn.net/weixin_39773661/article/details/80972709

使用RNN训练语言模型

使用 rnn 训练词向量模型

【Language model】使用RNN LSTM训练语言模型写出45°角仰望星空的文章

语言模型及RNN模型

语言模型与RNN

RNN LSTM语言模型

如何应用RNN模型进行序列生成和语言模型训练？

RNN应用-基于RNN的语言模型

NLP系列项目二：RNN训练语言模型（pytorch完整代码）

RNN模型训练经验总结

使用kenlm工具训练统计语言模型

Language Model perplexity by using tensorflow使用tensorflow RNN模型计算语言模型的困惑度

自然语言处理 | (15)使用Pytorch实现RNN(LSTM)语言模型

语言模型、RNN梯度消失/爆炸、RNN网络变种

CUED-RNNLM：一个有效训练评估RNN语言模型的开源工具包

预训练语言模型综述（三）—— 预训练语言模型的实际使用

LightRNN —— 基于RNN的轻量级语言模型

从RNN到LSTM、GRU、语言模型

RNN语言模型和序列生成

训练语言模型

SRILM使用之训练无平滑语言模型

Transformers预训练模型使用：语言建模 Language Modeling

自然语言处理（二 RNN语言模型）

自然语言处理：文本预处理、语言模型、RNN

RNN：执行paddlepaddle语言学习例子训练报错汇总

RNN模型

使用KenLM训练统计语言模型并使用模型（based on Linux14.04）

语言模型训练工具SRILM

NLP预训练语言模型

预训练语言模型（一）

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)