【信息论】互信息I(X;Y)中H(X)怎么推导出来——p(x)怎么变成p(x,y)

问题

在研究互信息I(X;Y)时,存在:
I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) I(X;Y)=H(X)-H(X|Y) I(X;Y)=H(X)H(XY)
推导过程为:
H ( X ) = − ∑ x p ( x ) l o g 2 p ( x ) H(X) = -\sum_{x}{p(x)log_2{p(x)}} H(X)=xp(x)log2p(x)
H ( X ∣ Y ) = − ∑ x ∑ y p ( x , y ) l o g 2 p ( x ∣ y ) H(X|Y) = -\sum_{x}\sum_{y}{p(x,y)log_2{p(x|y)}} H(XY)=xyp(x,y)log2p(xy)
H ( X ) − H ( X ∣ Y ) = − ∑ x p ( x ) l o g 2 p ( x ) + ∑ x ∑ y p ( x , y ) l o g 2 p ( x ∣ y ) = − ∑ x ∑ y p ( x , y ) l o g 2 p ( x ) + ∑ x ∑ y p ( x , y ) l o g 2 p ( x ∣ y ) = − ∑ x ∑ y p ( x , y ) ( l o g 2 p ( x ) − l o g 2 p ( x ∣ y ) ) = ∑ x ∑ y p ( x , y ) ( l o g 2 p ( x ∣ y ) − l o g 2 p ( x ) ) = ∑ x ∑ y p ( x , y ) l o g 2 p ( x ∣ y ) p ( x ) = ∑ x ∑ y p ( x , y ) l o g 2 p ( x , y ) p ( x ) p ( y ) = I ( X ; Y ) H(X) -H(X|Y) =-\sum_{x}{p(x)log_2{p(x)}}+\sum_{x}\sum_{y}{p(x,y)log_2{p(x|y)}} \\ =-\sum_{x}\sum_{y}{p(x,y)log_2{p(x)}}+\sum_{x}\sum_{y}{p(x,y)log_2{p(x|y)}} \\ =-\sum_{x}\sum_{y}{p(x,y)(log_2{p(x)}-log_2{p(x|y)}}) \\ =\sum_{x}\sum_{y}{p(x,y)(log_2{p(x|y)}}-log_2{p(x)}) \\ =\sum_{x}\sum_{y}{p(x,y)log_{2}}\frac{p(x|y)}{p(x)} \\ =\sum_{x}\sum_{y}{p(x,y)log_{2}}\frac{p(x,y)}{p(x)p(y)} \\ =I(X;Y) H(X)H(XY)=xp(x)log2p(x)+xyp(x,y)log2p(xy)=xyp(x,y)log2p(x)+xyp(x,y)log2p(xy)=xyp(x,y)(log2p(x)log2p(xy))=xyp(x,y)(log2p(xy)log2p(x))=xyp(x,y)log2p(x)p(xy)=xyp(x,y)log2p(x)p(y)p(x,y)=I(X;Y)


之前不明白为什么第二行中 − ∑ x p ( x ) l o g 2 p ( x ) -\sum_{x}{p(x)log_2{p(x)}} xp(x)log2p(x)可以变为 − ∑ x ∑ y p ( x , y ) l o g 2 p ( x ) -\sum_{x}\sum_{y}{p(x,y)log_2{p(x)}} xyp(x,y)log2p(x),下面从分别从公式和实际含义两个角度说明下:

一、公式证明

(一)假设模型

假设X存在M种取值,不妨设M=3,并设三种取值出现的概率分别为:
p ( x 1 ) = A , p ( x 2 ) = B , p ( x 3 ) = C p(x_1)=A , p(x_2)=B , p(x_3)=C p(x1)=A,p(x2)=B,p(x3)=C
假设Y存在N种取值,不妨设N=2,并设两种取值出现的概率分别为:
p ( y 1 ) = a , p ( y 2 ) = b p(y_1)=a , p(y_2)=b p(y1)=a,p(y2)=b
由于概率总和为1,故可得
A + B + C = 1 , a + b = 1 A+B+C=1 , a+b=1 A+B+C=1,a+b=1
备注:为了后续的观察,M=3和N=2是随便取,其实可为任意值

(二)计算H(X)

H ( X ) = − ( A l o g 2 A + B l o g 2 B + C l o g 2 C ) H(X) = -(Alog_{2}A+Blog_{2}B+Clog_{2}C) H(X)=(Alog2A+Blog2B+Clog2C)

(三)计算 − ∑ x ∑ y p ( x , y ) l o g 2 p ( x ) -\sum_{x}\sum_{y}{p(x,y)log_2{p(x)}} xyp(x,y)log2p(x)

首先我们要先想清楚, ∑ x ∑ y p ( x , y ) \sum_{x}\sum_{y}p(x,y) xyp(x,y)的含义:其实就将所有x出现的情况与y出现的情况都加起来,所以总共有 p ( x , y ) p(x,y) p(x,y)总共有 M ∗ N M*N MN种可能性,在本题 中 M ∗ N = 6 中M*N=6 MN=6,且我们由假设中可以知道具体是哪6种,即 p ( x , y ) p(x,y) p(x,y)的取值分别为:
A a , A b , B a , B b , C a , C b Aa , Ab , Ba , Bb , Ca , Cb Aa,Ab,Ba,Bb,Ca,Cb
然后想清楚 l o g 2 p ( x ) log_{2}p(x) log2p(x)中的 p ( x ) p(x) p(x)有几种可能的取值:依然是3种,只是每一种x的取值会对应两种y,例如在 l o g 2 p ( x 1 ) log_{2}p(x_1) log2p(x1)时有 p ( x 1 , y 1 ) = A a p(x_1,y_1)=Aa p(x1,y1)=Aa p ( x 1 , y 2 ) = A b p(x_1,y_2)=Ab p(x1,y2)=Ab
接下我们就可以计算了:
− ∑ x ∑ y p ( x , y ) l o g 2 p ( x ) = − ( A a l o g 2 A + A b l o g 2 A + B a l o g 2 B + B b l o g 2 B + C a l o g 2 C + C b l o g 2 C ) = − a ( A l o g 2 A + B l o g 2 B + C l o g 2 C ) − b ( A l o g 2 A + B l o g 2 B + C l o g 2 C ) = − ( a + b ) ( A l o g 2 A + B l o g 2 B + C l o g 2 C ) 由 于 a + b = 1 = − ( A l o g 2 A + B l o g 2 B + C l o g 2 C ) = H ( X ) -\sum_{x}\sum_{y}{p(x,y)log_2{p(x)}} \\= -(Aalog_{2}A+Ablog_{2}A+Balog_{2}B+Bblog_{2}B+Calog_{2}C+Cblog_{2}C) \\=-a(Alog_{2}A+Blog_{2}B+Clog_{2}C) -b(Alog_{2}A+Blog_{2}B+Clog_{2}C) \\=-(a+b)(Alog_{2}A+Blog_{2}B+Clog_{2}C) \\由于a+b=1 \\=-(Alog_{2}A+Blog_{2}B+Clog_{2}C) \\=H(X) xyp(x,y)log2p(x)=Aalog2A+Ablog2A+Balog2B+Bblog2B+Calog2C+Cblog2C=a(Alog2A+Blog2B+Clog2C)b(Alog2A+Blog2B+Clog2C)=(a+b)(Alog2A+Blog2B+Clog2C)a+b=1=(Alog2A+Blog2B+Clog2C)=H(X)

二、从实际含义的角度理解

  1. 实际上 − l o g 2 p ( x ) -log_2{p(x)} log2p(x)的含义的含义是自信息,即当x取某一值时的信息量,例如当 x = x 1 x=x_1 x=x1时信息量为 − l o g 2 p ( x 1 ) -log_2{p(x_1)} log2p(x1)
    (关于自信息的理解可以看这里自信息)

  2. 而熵是对x的数学期望,即将所有x可能的取值对应的自信息全部相加,并乘以相应的概率,因此有熵的公式 H ( X ) = − ∑ x p ( x ) l o g 2 p ( x ) H(X) = -\sum_{x}{p(x)log_2{p(x)}} H(X)=xp(x)log2p(x)

  3. ∑ x ∑ y p ( x , y ) \sum_{x}\sum_{y}p(x,y) xyp(x,y)表示将所有x与y可能的概率全部相加,虽然出现了y,但是后面乘以自信息不变,依然是 − l o g 2 p ( x ) -log_2{p(x)} log2p(x),所以y的出现并不会整体的熵,因为计算过程中根本就没有考虑y的自信息

举个例子:

小明喜欢吃的食物有:汉堡10元,薯条5元,鸡块3元
小明吃汉堡的概率为A,吃薯条的概率为B,吃鸡块的概率为C,(A+B+C=1)

求小明每次在上面平均花多少钱(注意不包括喝),即

扫描二维码关注公众号,回复: 12305841 查看本文章

money_吃=10*A+5*B+3*C

现在把的情况也考虑进来

他还喜欢喝的饮料有:可乐5元,橙汁4元
喝可乐的概率为a,喝橙汁的概率为b,(a+b=1)

但问题为:考虑不同的饮料情况,请问小明在上面平均花了多少钱?
所以最后依然只求小明在这一方面平均花了多少钱,所以为:
(1)若喝可乐:

money_可乐 = (10*A+5*B+3*C)=money_吃

(2)若喝橙汁:

money_橙汁 = (10*A+5*B+3*C)=money_吃

(3)求吃的数学期望:

a*money_可乐+b*money_橙汁
= a*money_吃+b*money_吃
= (a+b)*money_吃
= money_吃

因为最后的问题依然求的是关于吃的钱,所以就算把的情况考虑进来,也不影响吃的数学期望
因为最终是把所有不同的饮料情况考虑都进去,所以相当于不用考虑饮料的不同(因为你求的是关于的钱)


纯属个人理解,不足之处欢迎指出

猜你喜欢

转载自blog.csdn.net/weixin_38705903/article/details/92428757
今日推荐