著名的香农定理,也就如此?——信息也有单位

信息是有单位的?

    信息到底是如何计算的?信息为什么还会有单位?
   如果你对这些已经了如指掌,那么这篇文章就不是为你准备的。如果你还不清楚,那就希望你可以慢慢看完这篇文章。

1.单位

    回想一下,什么东西有单位?质量,温度,长度等物理量。
    没错,信息也是一个物理量。 要测量这个物理量,不妨回想一下我们是怎么测量质量的,“千克”最初又是怎么被定义出来的?
    其实最初我们并不知道千克的质量,而是选择了一个参照物,把这个物体的质量就称为千克。当想要测量其他物体的质量时,就看这个物体的质量相当于多少个参照物体的质量。这里的”多少个“便是千克。如果换另一个参照物体,那么单位就会变化,比如斤。
    例如:
在这里插入图片描述
   仔细看看上面这幅图,理解了没有?类似的,m(米)、℃也是这么定义来的。虽然每天都在接触单位这玩意,现在终于知道是怎么来的了。如果你有了好奇心,那就接着往下看~~

2.信息是如何测量的

    测量信息时也是一样,既然信息消除的是不确定性,那么就选择另一个事件的不确定性作为参照事件。 当想要测量其他事件的信息时,就看看待测事件的不确定性相当于多少个参照事件的不确定性。这里的多少个便是信息量

    规定敲黑板,敲黑板!):当选择的参照事物是像抛硬币这样,只有 2 种等概率情况的事件时,测得的信息量的单位就被称为比特(bit)。
   PS:什么?没听懂?那我给你翻译翻译:抛掷一个硬币产生的信息=1bit,至于为什么是抛掷硬币,这个就是规定,没为什么 ~~~ >ω<
  其实到这里,好多人已经明白了吧?测量一件事情的信息量,就看他的不确定性=抛掷几枚硬币 不就行了?如果还不明白,再往下看

    回想一下,我们测量质量时,我们是用 待测物体的质量除以参照物体的质量。 因为待测物体的质量 m 等于 参照物体的质量 B 和 乘以 参照物体个数 n ,所以当知道 m 要求 n 时,我们用乘法的反函数,即除法来计算。
在这里插入图片描述

    可是测量信息量时,却不能用除法。为什么呢?因为 抛掷 3 个硬币能够产生的等可能结果并非 3*2=6,而是 2^3=8 种(如果这点不明白,你可以往下看)。也就是说 待测物体不确定情况的个数 m 是由 参照物个数 n(硬币个数) 的指数关系进行累积的。 即 m \ne n * 2 , m=2n ,即 n= l o g 2 m {log_2{m}}
在这里插入图片描述
   究其根源,我们实际上就想求n的值,如果一个事件有m个不确定性情况,那么这个事件就有n bit的信息。而 n= l o g 2 m {log_2{m}}
PS:其实说白了,只要你给我一件事情的不确定情况个数m,我就可以算出这件事所包含信息量n是多少。
   那么,比如说,当小明面对一个选择题时,他不知道ABCD那个选项是对的,这个事件的信息量是多少呢?如果你直接告诉我,是 l o g 2 4 {log_2{4}} = 2 bits,是2bit的信息。嗯~~恭喜你,答对了,说明上边的东西你理解了。你可以接着往下看了。
  记住,一定要把上边的逻辑理清了,再往下看



3.更普遍性

   上边求信息量,有个前提,那就是被测事件所有可能情况都必须是等概率才行,因为参照事件本身的两种情况就是等概率。
例如:ABCD四个选项:

A 1/4
B 1/4
C 1/4
D 1/4

   想象这样一个问题:
当小明不知道选择题是 ABCD 哪个选项时:突然有人告诉小明 “有一半可能性是 C 选项” 时,那么ABCD各个情况的概率就不一样了,这时该如何计算信息量呢?

选项 概率
A 1/6
B 1/6
C 1/2
D 1/6

    答案是分别测量待测事件每种可能情况的信息量后,乘以它们各自的发生概率再相加即可。
   不过,怎么测量每种情况的信息量呢? 怎么知道概率为 1/6 的情况的不确定性相当于抛掷多少次硬币所产生的不确定性呢? m到底是多少呢?

   我们知道概率 p=1/100会发生的情况,相当于从100个等概率情况中确定1个情况, 即不确定性情况有100种,概率的倒数等于等概率情况的个数,m = 1/p。 所以,可以用1/p来代替m。
   PS:这个地方也很迷~~大家可以再仔细想想对不对。比如说,概率为3/10。那么等概率情况的个数就是10/3,又因为每个情况的概率又是3/10,10/3*3/10=1,是不是这么个道理?
   所以信息量H(x)就可以这么计算:H(X) = \sum p(x) * l o g 2 1 / p ( x ) {log_2{1/p(x)}}

4.香农定理

    敲黑板,敲黑板!!香农来了,香农来了!
下面的公式就是著名的香农定理,有没有感觉他很熟悉? H(X)就是信息量,P(X)就是概率。为什么多了一个负号呢?你把负号拿掉,式子就变成H(X) = \sum p(x) * l o g 2 1 / p ( x ) {log_2{1/p(x)}} 。这不就是就是我们上面说的信息量的公式么?
  对,就是如此,著名的香农定理,也不过如此。

在这里插入图片描述
回到例子中,
  小明做一个选择题,他不知道ABCD哪个选项是对的(此时是等概率),所以答案的不确定性(信息量)是 l o g 2 4 {log_2{4}} =2bit。当小红告诉小明 C 有 50%概率是正确答案时,各个选项概率是:

选项 概率
A 1/6
B 1/6
C 1/2
D 1/6

信息量就可以这么求:1/6 ⅹ l o g 2 6 {log_2{6}} +1/6ⅹ l o g 2 6 {log_2{6}} + 1/2ⅹ l o g 2 2 {log_2{2}} + 1/6ⅹ l o g 2 6 {log_2{6}} = 1.79 bits
  2-1.79=0.21 bits, 当小红告诉小明C 有一半概率是对的,所提供的信息就是0.21bits

  文章的最后,再来看看一个很简单的题目:加深你对信息量的理解

当小明不知道选择题是 ABCD 哪个选项时:(这时信息量时是 l o g 2 4 {log_2{4}} =2 bits)

  • 小红告小明 “D 选项是错的”,提供了 0.415 bits 的信息
    H(x)=1/3 * l o g 2 3 {log_2{3}} +1/3 * l o g 2 3 {log_2{3}} +1/3 * l o g 2 3 {log_2{3}} =1.585 bits
    2-1.585=0.415 bit
  • 告诉小明 “A选项是错的”,提供了 0.585 bits 的信息
    H(x)=1/2 * l o g 2 2 {log_2{2}} +1/2 * l o g 2 2 {log_2{2}} = 1 bit
    1.585-1=0.585 bit
  • 告诉小明 “B选项是错的”,提供了 1 bit 的信息
    H(x)=1 * l o g 2 1 {log_2{1}} =0 bit
    1-0=1 bit

5.总结:

    香农信息论,简单的叙述就是,事件发生的可能性用来描述不确定性,信息通过不确定性的测量来定义。事情的不确定性越大,包含的信息就越多。其实文章中所提到的信息量就是信息熵。因为熵这个概念需要单独一篇文章来解释,所以这里就没替换。
   后面我会再讲讲关于信息熵、条件熵、以及联合熵的概念,包括机器学习里面最常用的交叉熵损失函数,以及MDL准则(原理也是熵)。千万不要觉得熵是学信息论的人学的,如果一个学计算的人不知道熵,不知道会不会被嘲笑~~



   参考资料:可以关注微信公众号:超智能体,他里面有很多有意思的东西,每个视频也就几分钟,但是真的很有意思!非常推荐大家可以去看看!本文章就是根据里面的视频所写~

  文章如有不当之处,请多多指教! 评论区见 ~ ∩ω∩

发布了4 篇原创文章 · 获赞 8 · 访问量 284

猜你喜欢

转载自blog.csdn.net/weixin_43275558/article/details/103933410