简单理解语言模型与N-gram语言模型

简单理解语言模型

语言模型简单介绍

语言模型:为单词序列分配概率的模型。即对于单词序列w1, w2, w3,..., wn,计算P(w1, w2, w3,..., wn)的模型就是语言模型。

语言模型作用:对于一句话中的词序列,它判断这一句是否在语法上讲得通。或者预测单词序列的下一个词是什么。

语言模型的计算公式:

n-gram model(n元模型)

n元模型的思想就是:

出现在第 i 位上的词 wi 仅与它前面的(n-1)个单词相关。

通常情况下,n的取值不能太大,实际中, n=3是最常见的情况。n过小,产生的概率不够准确,n过大,计算量太大。

举例

当n=1时,即出现在第i位上的词 wi 独立,一元文法被记作unigram,或uni-gram,或monogram。

例如长度为 4 的序列w1、w2、w3、w4 在一元语法、二元语法和三元语法中的概率分别为:

发布了18 篇原创文章 · 获赞 1 · 访问量 4272

猜你喜欢

转载自blog.csdn.net/weixin_44151089/article/details/104379144
今日推荐