概率论
概率
概率的统计定义
- 频率
事件A在n次重复随机试验中出现的次数与n的比值。
- 概率
在同一条件下做的大量重复试验中,若事件A发生的频率总是在一个确定的常数p附近摆动,并且逐渐稳定于p,那么数p就表示事件A发生的可能性大小,并成为事件A的概率.
概率的公理化定义
设E是随机试验,Ω是E的样本空间,对于E 的每一个事件A赋予一个实数值,
表示事件发生的可能性(记为
P(A)),则
P(A)为事件A的概率.概率必须满足如下公理:
- 非负性
- 规范性
P(Ω)=1
- 可加性
最大似然估计(MLE)
最大似然估计(Maximization likelihood estimation, MLE)
如果一个实验的样本空间是
s1,s2,…,sn,在相同情况下重复实验N次,观察到样本
sk(1≤k≤n)的次数维
nN(sk),则
sk的相对频率为:
qN(sk)=NnN(sk)
由于
∑i=1nnN(sk)=N,因此
∑i=1nqN(sk)=1
当N越来越大时,相对频率
qN(sk)就越来越接近
sk的概率
P(sk).
N→∞limqN(sk)=P(sk)
在N很大情况下,我们用相对频率来作为概率的估计值,即最大似然估计.
条件概率(conditional probability)
如果A和B是样本空间
Ω上的两个事件,
P(B)>0,那么在给定B时A的条件概率
P(A∣B)为
P(A∣B)=P(B)P(A∩B)
全概率公式
P(A)=P(∪i=1nABi)=i=1∑nP(ABi)=i=1∑nP(Bi)P(A∣Bi)
贝叶斯法则(Bayes’ theorem)
P(Bi∣A)=∑j=1nP(Bj)P(A∣Bj)P(Bi)P(A∣Bi)
贝叶斯决策理论
假设研究的分类问题有c个类别,各类别的状态用
wi表示,
i=1,2,…,c,对应于各类别
wi出现的先验概率
P(wi),在特征空间中观察到某一向量
xˉ是d维特征空间上的某一点,且条件概率密度函数
P(xˉ∣wi)是已知的.
那么用贝叶斯公式即可得到后验概率
p(wi∣xˉ)=∑j=1cp(x∣wjˉp(wj))p(xˉ∣wi)p(wi)
期望
EX=x1p1+x2p2+…
E(X)=k=1∑∞xkpk
方差(variane)
描述随机变量的值偏离其期望的程度.
Var(X)=E((X−E(X))2)=E(X2)−E2(X)
扫描二维码关注公众号,回复:
4663206 查看本文章
偏置(Bias)
估计值与实际值的差.
偏置-方差分解
信息论
自信息
一个消息自身所包含的信息量,由事件的不确定性决定,定义为:
I(xi)=−logp(xi)=logp(xi)1
单位
- 取对数底为2,信息量的单位为比特
- 取对数底为e,信息量的单位为奈特,1奈特=1.443比特
- 工程上以10为底比较方便,信息量的单位为哈特莱,1哈特莱=3.322比特
信息熵(平均自信息)
随机变量
X由
A1…An共n个可能的状态,每个状态出现的机率分别为
p1,…pn,则随机变量
X的平均自信息量为
H(X)=−1∑npilogpi
定义为
X的信息熵,记为
H(X).
通常熵的单位为二进制位比特,我们约定
0log0=0
X的具体内容与信息量无关,我们只关心概率分布.
熵
联合熵
离散型二维随机变量XY的联合熵
H(X,y)定义为:
H(X,Y)=−x∈X∑y∈Y∑p(x,y)log2p(x,y)
联合熵实际上就是描述一对随机变量平均所需要的信息量,是二维随机变量XY的不确定性度量.
互信息
一个事件
yj所给出关于另一个事件
xi的信息定义为互信息,表示为
I(xi;yj)=I(xi)−I(xi∣yj)=logp(xi)p(xi∣yj)
互信息是已知事件
yj后所消除的关于事件
xi的不确定性的减少量,即Y的值透露了多少关于X的信息量.
条件熵
有两个变量:x,y.它们不是独立的,给定随机变量X的情况下,随机变量Y的条件熵的定义为:
H(Y∣X)=i∑p(xi)H(H∣xi)=−i∑j∑p(xi)p(yj∣xi)logp(yj∣xi)=−i∑j∑p(xiyj)logp(yj∣xi)
其中,
H(Y∣X)表示已知X时,Y的平均不确定性.
H(Y∣X)≤H(Y)
联合熵与信息熵、条件熵的关系
H(XY)≤H(X)+H(Y)
当二维随机变量X、Y相互独立时,等号成立.
相对熵
两个概率分布
p(x)和
q(x)的相对熵定义为:
D(p∣∣q)=x∈X∑p(x)logq(x)p(x)
相对熵通常被用来衡量两个随机分布的差距,当两个随机分布相同时,其相对熵为0,当两个随机分布的差别增大时,其相对熵也增大.
交叉熵
一个随机变量
X p(x),
q(x)为近似
p(x)的概率分布,随机变量X和模型q之间的交叉熵定义为:
H(X,q)=H(X)+D(p∣∣q)=−x∑p(x)logq(x)
交叉熵的概念用以衡量估计模型与真实概率分布之间的差异.
困惑度
设计语言模型时,通常用困惑度来代替交叉熵衡量语言模型的好坏,给定语言L的样本
l1m=l1⋯ln,L的困惑度
PPq定义为:
PPq=2H(L,q)≈2−21logq(l1n)=[q(l1n)]−1/n
语言模型设计的任务就是寻找困惑度最小的模型,使其接近真实的语言.