信息论 讲义(1)

一.自信息与互信息
定义2.1:随机事件的自信息量定义为该事件发生概率的对数的负值,即I(x) = -logp(x)

注:通常取对数的底为2,信息量的单位为比特。当取对数的底为2时,2常省略。
若取对数的底为e,自信息量的单位为奈特。常用于理论推导和连续信源
工程上常用10,则其单位为哈莱特
若取以r为底的对数,I(x)=-logr p(x) r进制单位
1r进制单位 = log2 r 进制单位

定义2.2:一个事件y关于另一个事件x的信息定义为互信息,用I(x;y)表示
I(x;y)=I(x) - I(x|y) = -logp(x)+logp(x|y)=logp(x|y)/p(x)

理解:一个概率为1的事件的自信息量是0,一个概率接近0的事件的自信息量是接近无穷的。也就是说自信息量反应的是事件的不确定度。自信息量越大也即不确定度越大,发生概率越小。而互信息是在已知一个y事件后所消除的关于x事件的不确定性,是一个被消除的量。也就是说,互信息量越大,这个事件对确定x事件就越有效。

定义2.3:随机变量X的每一个可能取值的自信息I(x)的统计平均值定义为随机变量X的平均自信息量 也即H(X)=-Σp(xi)logp(xi)。平均自信息量又可称为信息熵

二.熵函数:信息熵H(x)是随机变量X的概率分布的函数,所以又成为熵函数。如果把概率分布p(xi),i=1,2…q,记为p1,p2..pq,则熵函数又可写成概率矢量p = (p1,p2…pq)的函数形式,记为H(p)。
H(p) =-Σpilogpi=H(p1,p2…,pq) =H(X)

性质:
1.对称性,各分量次序可以任意改变,而熵值不变
2.确定性,只要有一个分量为0,那么熵值为0
3.非负性
4.扩展性,因为clogc=0(c趋近0),所以增加一个基本不会出现的小概率事件,信息源的熵保持不变。
5.连续性 信源概率空间中概率分量的微小变化不会引起熵的变化
6.递推性 假设某一信源的n个元素的概率分布为p1,p2..pn,其中某个元素xn又被划分为m个元素那么得到的新信源熵等于原信源熵加上pnH(q1/pn,q2/pn..qm/pn),这是由于划分引起的。
7.极值性,当离散信源忠各消息等概率出现时,熵值最大,最大为logn
8.上凸性

三.联合熵与条件熵
定义2.4:二维随机变量XY的联合熵定义为联合自信息的数学期望,它是二维随机变量XY的不确定性的度量
H(XY)=ΣΣp(xiyj)log1/p(xiyj)
条件熵
定义2.5:H(Y|X)=Σp(xi)H(Y|xi)=-ΣΣp(xiyj)logp(yj|xi),其中H(Y|X)表示已知X时,Y的平均不确定性。

同理H(X|Y)=-ΣΣp(xiyj)logp(xi|yj)

各类熵的关系如下:
H(XY)=H(X)+H(Y|X)
证明:H(XY)=ΣΣp(xiyj)logp(xiyj) = ΣΣp(xiyj)logp(xi)p(yj|xi) =H(X)+H(Y|X)<= H(X)+H(Y)

四.平均互信息
互信息I(xi;yi)表示某一事件yi所给出的关于另一个事件xi的信息,它随xi和yi的变化而变化,为了从整体上表示从一个随机变量Y所给出关于另一个随机变量X的信息量,定义互信息I(xi;yi)在XY的联合概率分布空间中的统计平均值为随机变量X和Y间的平均互信息
定义2.6:I(X;Y)=ΣΣp(xiyi)I(xi;yi)=ΣΣp(xiyi)logp(x|y)/p(x)=H(X)-H(X|Y)

性质:
1.非负性
2.互易性(对称性) I(X;Y)=I(Y;X)
3.H(X;Y)=H(X)-H(X|Y)
=H(Y)-H(Y|X)
=H(X)+H(Y)-H(XY)
4.极值性 I(X;Y)<=H(X),I(X;Y)<=H(Y)
5.凸函数性

定义2.7:平均条件互信息
I(X;Y|Z)=ΣΣΣp(xyz)logp(x|yz)/p(x|z)
定义2.8:平均联合互信息
I(X;YZ)=ΣΣΣp(xyz)p(x|yz) / p(x)

猜你喜欢

转载自blog.csdn.net/l_searcing/article/details/80066358
今日推荐