【论文翻译未完成】翻给自己看的 A Neural Probabilistic Language Model

学习路线:NLP经典论文导读(推荐阅读顺序)

原文:https://jmlr.csail.mit.edu/papers/v3/bengio03a.html

参考:论文阅读:  一种神经概率语言模型

 

一种神经概率语言模型 

【为什么要叫神经概率? 】 

统计语言模型的目标是学习同一种语言下单词序列联合概率函数。 这本质上是困难的,因为维数灾难:在模型上测试单词序列极大可能和训练阶段 看到的所有单词序列都不一样。 传统但非常成功的基于n-gram的方法通过将训练集中的非常短的重叠序列连接实现了泛化。

【为什么非常短的序列连接在一起会实现泛化? 】

我们提出通过学习词的分布式表示来对抗维度灾难。 (这种方法)允许每个训练句子给模型提供关于语义相邻句子指数级别数量信息。 根据刚才的表述而言,这个模型同时学习(1)每个词的分布表达式 (2)单词序列的概率函数。 模型得到了泛化是因为单词序列不会被看见,除非是由和已被看见的句子中的词相似( 有附近的表示 的词组成的,得到高概率。

【最后一句话没有翻译得特别理解,词的分布式表示是什么?这段话是怎么操作的?】

训练那么大的模型(上百万个参数)在一个合理的时间本身是一个巨大的挑战。 我们介绍了为了概率函数而用了神经网络的实验,在两个语料库上, 提出的方法极大地改善了先进的n-gram模型并且提出的方法允许利用长文本。

【哪两个语料库?】

tips:
joint probability function - 联合概率函数
sequences of words - 单词序列
intrinsically - 本质上
generalization - 泛化
propose to - 提出
a distributed representation for words - 词的分布式表示
sequence 和 sentence - 序列和句子
inform sb about sth - 给某人提供sth信息
an exponential number 指数数量级别的
semantically neighboring sentences - 语义相同的句子
in the sense of doing 表示前文内容
report on - 介绍了
take advantage of 利用

一 介绍

 让语言模型其他学习问题困难的一个根本问题是维数灾难。当有人想要为许多离散的随机变量(例如句子中的词语,或者数据挖掘任务中的离散分布)建立联合分布模型,这一问题特别明显。例如,如果有人想要为词汇量V为100000的自然语言中的10个连续词语建立联合分布模型,就有100000^{10}-1=10^{50}-1个自由参数。当建立连续变量模型时,我们更容易得到泛化。(例如函数光滑的类,就像多层神经网络或者高斯混合模型)因为函数被学习是为了有局部平滑性。对于离散空间,泛化结构不明显:任何离散变量的改变可能对估计的函数值产生巨大的变化,并且当每个离散变量范围很大时,大多数观测到的对象在汉明距离上几乎是无穷远的。

【光滑的类是什么?为什么说“就像多层神经网络或者高斯混合模型”?为什么任何离散变量的改变会对函数估计值产生巨大变化?】

【这一段说:离散随机变量泛化结果不明显,需要很多参数,离散变量改变的话,函数估计值变化很大;连续变量容易泛化,因为函数有局部平滑性。】

 一个有用的方法可视化学习算法如何泛化,由非参数密度估计启发而来,考虑初始聚焦在训练点(例如训练语句)的概率质量以较大体积分布,通常是在训练点周围的邻域。在高维上,概率质量分布重要的地方而不是均匀分布在每个训练点周围的各个方向上。在论文中,我们将展示(我们)提出的方法概述和之前先进的统计语言模型方法概述基本上是不一样的。

【非参数密度估计是什么?概率质量(probability mass)是什么?如何以较大体积分布?接下来是要介绍这个有用的可视化方法吗?】

【这一段说:一个由非参数密度估计方法启发而来的学习算法可以将泛化可视化。这个学习算法就是把概率质量分布在重要的地方】

根据之前所有给定的词,统计语言模型中的下一个词条件概率可以表示为【图中的公式】w_{t}是第t个词,w^{j}_{i}是子序列(w_{i}, w_{i+1}, w_{i+2}, ... w_{j-1}, w_{j})。这样的统计语言模型已经在涉及到自然语言的许多科技应用领域有用,例如语音识别,语言翻译和信息检索统计语言模型的改善能够在这些应用上有巨大的影响。

【这一段介绍了统计语言模型的条件概率公式。统计语言模型涉及到很多应用领域。】

tips:
fundamental - 根本上
discrete - 离散
model the joint distribution between …… - 建立……的联合分布模型
in hamming distance - 在汉明距离上
neighberhood - 邻域
think of - 考虑
initially - 首先
where it matters - 在重要的地方
speech recognition - 语音识别
imformation retrieval - 信息检索

 当建立自然语言统计模型时,一个能够大大减少建模问题的复杂性的方法是利用词语顺序并且在词序中更靠近的词在统计上更具有依赖性。因此,n-gram模型对于数量庞大的上下文构建了下一个词的条件概率表,例如

给定前n-1个词,第n个词的条件概率表示

 2

我们只考虑在训练语料中实际出现的连续词语的组合,或者出现足够多频率。当n元词的新组合出现且在训练语料库中没有出现时,会发生什么?我们不想这一情况下时分配0可能性,因为新组合很可能会出现,他们很可能更频繁地在更大的上下文尺寸中出现。一个简单的解决方法是考虑用更小的上下文尺寸(更小的语料)预测可能性,就像back-off trigram models (Katz, 1987)或者smoothed (or interpolated) trigram models(Jelinek and Mercer, 1980)中使用的方法。所以在这样的模型中,怎么从训练语料中看到的词序列到新的词序列的泛化是如何实现的?一种理解这种情况如何发生的方式是考虑与这些插值或后退n-gram模型对应的生成模型

tips:
considerably - 相当
temporally closer words指的是按照时间顺序排列的词语,
即先出现的词语更接近于后出现的词语。
这个概念的本质是词语的上下文关系,即某个词语的前后文的结构。
combination - 组合

猜你喜欢

转载自blog.csdn.net/zy98zy998/article/details/129591963