NLP 概念

信息熵 条件熵 联合熵 左右熵 互信息


最近用到信息论的知识表较多,自己也总结下。

1 信息熵(entropy)

定义式:

其中P(x)是变量出现的概率。从直观上,信息熵越大,变量包含的信息量越大,变量的不确定性也越大。一个事物内部会存在随机性,也就是不确定性,而从外部消除这个不确定性唯一的办法是引入信息。如果没有信息,任何公式或者数字的游戏都无法排除不确定性。几乎所有的自然语言处理,信息与信号处理的应用都是一个消除不确定性的过程。

2 条件熵(conditional entropy)

知道的信息越多,随机事件的不确定性就越小。

定义式:


3 联合熵

设X Y为两个随机变量,对于给定条件Y=y下,X的条件熵定义为:


4 左右熵

一般用于统计方法的新词发现。

计算一对词之间的左熵和右熵,熵越大,越说明是一个新词。因为熵表示不确定性,所以熵越大,不确定越大,也就是这对词左右搭配越丰富,越多选择。如: 屌丝,这个词,我们希望左右熵都很大,希望屌丝这个词左右边搭配尽可能丰富,如左边:这屌丝、臭屌丝、穷屌丝;右边:屌丝的,屌丝样、屌丝命等。左右搭配丰富。

5 互信息(mutual information)

两个事件的互信息定义为:I(X;Y)=H(X)+H(Y)-H(X,Y),也就是用来衡量两个信息的相关性大小的量。

互信息是计算语言学模型分析的常用方法,它度量两个对象之间的相互性。

定义式:



应用:

(1)去计算一个变量的不确定性,可以考虑信息熵;在研究显著性时,可以用信息熵去计算一个区域的信息量的大小,近而来判断其为显著性区域;

(2)计算两个变量之间的相关性,可以考虑条件熵;

猜你喜欢

转载自blog.csdn.net/haidao2009/article/details/46329689
NLP