1.1 概率论
概率描述一些事情发生的可能性。
大数定理:
当试验次数(样本)足够多的时候,事件出现的频率无限接近于该事件真实发生的概率。
来表示随机变量的概率,那么就要满足如下两个特性:
联合概率
表示两个事件共同发生的概率,如果相互独立,则
条件概率
是指在已知事件x已发生的情况下,事件y发生的概率。且有。如果这两个事件相互独立,那么与相等。
联合概率和条件概率分别对应两个模型:生成模型和判别模型。
期望:
概率分别的均值称为期望:
期望就是对每个可能的的取值x,与其对应的概率值,进行相乘求和。假如一个随机变量的概率分布式均匀分布,期望就等于均值。
方差:
概率分布的方差为:
方差表示随机变量偏离期望的大小。衡量数据的波动性,方差越小表示数据越稳定,反之波动性越大。
概率分布有:均匀分布,正态分布,二项分布,泊松分布,指数分布等
1.2 信息论
外面下雨了,很平常
见到外星人了,很稀奇
同样两条信息。一条信息量很少,一条信息量很大,很有价值,如何量化呢
信息熵
需要信息熵,一个随机变量X的信息熵如下:
信息越少,事件的不确定性越大,信息熵很大。
信息熵表示不确定性的度量
联合熵:
描述的是一对随机变量X和Y的不确定性。
条件熵:
条件熵衡量的是在一个随机变量X已知的情况下,另一个随机变量Y的不确定性。
互信息:
衡量两个随机变量的相关程度,当X和Y完全相关时,互信息就是1,完全无关时,互信息就是0。
互信息与熵的关系:
相对熵(KL距离):
相对熵是衡量相同时间空间里两个概率分布(函数)的差异程度(不同于熵和互信息,它们衡量的是随机变量的关系)
分布相同,相对熵为0,当差异增加,则相对熵增加。
物理意义在于如果用Q分布来编码P分布(一般是真实分布)的话,平均每个基本事件编码长度增加了多少比特。
交叉熵:
可以理解为p的信息熵+
举例
计算机和硬件的互信息就比计算机和杯子的互信息要大,因为更相关。
计算方法,,x独立出现的概率,y独立出现的概率,x和y同时出现的概率。
文档中计算词出现的个数,相除就可以了
1.2 贝叶斯法则
定义如下:
是后验概率,是似然概率,是先验概率,称为标准化常量。
应用:
分词是自然语言处理的最底层,最基本的一个技术了。
对一句话分词,最简答的就是查字典,使用的策略是最大值匹配。
查字典法有两种:
正向最大匹配法和反向最大匹配法。一个是从前向后匹配,一个是从后向前匹配。
棘手问题:
歧义问题。
如学历史知识
前向:学历/史/知识
后向:学/历史/知识
存在二义性。
基于统计的方法:
假设用户输入的句子用S表示,把S分词后结果表示为:
那么我们求得是达到最大值的那个分词结果,这个概率不好求,于是通过贝叶斯:
是一个标准化常量,公式改写为
表示这种分词生成句子S的可能性,表示这种分词本身的可能性。
可以认为就是1,因为必然能生成S,那么剩下的就是计算
在数学中,要简化数学模型,那就是假设
假设句子中一个词的出现概率只依赖于它前面的那个词,根据全概率公式:
可以改写成:
接下来就是估计,这样问题变得简单,只要统计这对词在统计文本中前后相邻出现了多少次,以及在同样的文本中出现了多少次。
平滑,防止概率为0
实际系统中,由于性能等原因,很少使用语言模型来分词消歧,而是使用序列标注、共现和一些规则等方法来消歧。