简单理解语言模型
语言模型简单介绍
语言模型:为单词序列分配概率的模型。即对于单词序列w1, w2, w3,..., wn,计算P(w1, w2, w3,..., wn)的模型就是语言模型。
语言模型作用:对于一句话中的词序列,它判断这一句是否在语法上讲得通。或者预测单词序列的下一个词是什么。
语言模型的计算公式:
n-gram model(n元模型)
n元模型的思想就是:
出现在第 i 位上的词 wi 仅与它前面的(n-1)个单词相关。
通常情况下,n的取值不能太大,实际中, n=3是最常见的情况。n过小,产生的概率不够准确,n过大,计算量太大。
举例
当n=1时,即出现在第i位上的词 wi 独立,一元文法被记作unigram,或uni-gram,或monogram。
例如长度为 4 的序列w1、w2、w3、w4 在一元语法、二元语法和三元语法中的概率分别为: