著名的香农定理，也就如此？——信息也有单位

信息是有单位的？

信息到底是如何计算的？信息为什么还会有单位？
如果你对这些已经了如指掌，那么这篇文章就不是为你准备的。如果你还不清楚，那就希望你可以慢慢看完这篇文章。

1.单位

回想一下，什么东西有单位？质量，温度，长度等物理量。
没错，信息也是一个物理量。要测量这个物理量，不妨回想一下我们是怎么测量质量的，“千克”最初又是怎么被定义出来的？
其实最初我们并不知道千克的质量，而是选择了一个参照物，把这个物体的质量就称为千克。当想要测量其他物体的质量时，就看这个物体的质量相当于多少个参照物体的质量。这里的”多少个“便是千克。如果换另一个参照物体，那么单位就会变化，比如斤。
例如：
在这里插入图片描述
仔细看看上面这幅图，理解了没有？类似的，m(米)、℃也是这么定义来的。虽然每天都在接触单位这玩意，现在终于知道是怎么来的了。如果你有了好奇心，那就接着往下看~~

2.信息是如何测量的

测量信息时也是一样，既然信息消除的是不确定性，那么就选择另一个事件的不确定性作为参照事件。当想要测量其他事件的信息时，就看看待测事件的不确定性相当于多少个参照事件的不确定性。这里的多少个便是信息量。

规定（敲黑板，敲黑板！）：当选择的参照事物是像抛硬币这样，只有 2 种等概率情况的事件时，测得的信息量的单位就被称为比特（bit）。
PS：什么？没听懂？那我给你翻译翻译：抛掷一个硬币产生的信息=1bit，至于为什么是抛掷硬币，这个就是规定，没为什么 ~~~ ＞ω＜
其实到这里，好多人已经明白了吧？测量一件事情的信息量，就看他的不确定性=抛掷几枚硬币不就行了？如果还不明白，再往下看

回想一下，我们测量质量时，我们是用待测物体的质量除以参照物体的质量。因为待测物体的质量 m 等于参照物体的质量 B 和乘以参照物体个数 n ，所以当知道 m 要求 n 时，我们用乘法的反函数，即除法来计算。
在这里插入图片描述

可是测量信息量时，却不能用除法。为什么呢？因为抛掷 3 个硬币能够产生的等可能结果并非 3*2=6，而是 2^3=8 种（如果这点不明白，你可以往下看）。也就是说待测物体不确定情况的个数 m 是由参照物个数 n(硬币个数) 的指数关系进行累积的。即 m $\ne$ n $*$ 2 , m=2ⁿ ，即 n= ${log_2{m}}$
在这里插入图片描述
究其根源，我们实际上就想求n的值，如果一个事件有m个不确定性情况，那么这个事件就有n bit的信息。而 n= ${log_2{m}}$ 。
PS：其实说白了，只要你给我一件事情的不确定情况个数m，我就可以算出这件事所包含信息量n是多少。
那么，比如说，当小明面对一个选择题时，他不知道ABCD那个选项是对的，这个事件的信息量是多少呢？如果你直接告诉我，是 ${log_2{4}}$ = 2 bits，是2bit的信息。嗯~~恭喜你，答对了，说明上边的东西你理解了。你可以接着往下看了。
记住，一定要把上边的逻辑理清了，再往下看

3.更普遍性

上边求信息量，有个前提，那就是被测事件的所有可能情况都必须是等概率才行，因为参照事件本身的两种情况就是等概率。
例如：ABCD四个选项：

A	1/4
B	1/4
C	1/4
D	1/4

想象这样一个问题：
当小明不知道选择题是 ABCD 哪个选项时：突然有人告诉小明 “有一半可能性是 C 选项” 时，那么ABCD各个情况的概率就不一样了，这时该如何计算信息量呢？

选项	概率
A	1/6
B	1/6
C	1/2
D	1/6

答案是分别测量待测事件每种可能情况的信息量后，乘以它们各自的发生概率再相加即可。
不过，怎么测量每种情况的信息量呢？怎么知道概率为 1/6 的情况的不确定性相当于抛掷多少次硬币所产生的不确定性呢？ m到底是多少呢？

我们知道概率 p=1/100会发生的情况，相当于从100个等概率情况中确定1个情况，即不确定性情况有100种，概率的倒数等于等概率情况的个数，m = 1/p。所以，可以用1/p来代替m。
PS：这个地方也很迷~~大家可以再仔细想想对不对。比如说，概率为3/10。那么等概率情况的个数就是10/3，又因为每个情况的概率又是3/10，10/3*3/10=1，是不是这么个道理？
所以信息量H(x)就可以这么计算：H(X) = $\sum$ p(x) $*$ ${log_2{1/p(x)}}$

4.香农定理

敲黑板，敲黑板！！香农来了，香农来了！
下面的公式就是著名的香农定理，有没有感觉他很熟悉？ H(X)就是信息量，P(X)就是概率。为什么多了一个负号呢？你把负号拿掉，式子就变成H(X) = $\sum$ p(x) $*$ ${log_2{1/p(x)}}$ 。这不就是就是我们上面说的信息量的公式么？
对，就是如此，著名的香农定理，也不过如此。

在这里插入图片描述
回到例子中，
小明做一个选择题，他不知道ABCD哪个选项是对的（此时是等概率），所以答案的不确定性（信息量）是 ${log_2{4}}$ =2bit。当小红告诉小明 C 有 50%概率是正确答案时，各个选项概率是：

选项	概率
A	1/6
B	1/6
C	1/2
D	1/6

信息量就可以这么求：1/6 ⅹ ${log_2{6}}$ +1/6ⅹ ${log_2{6}}$ + 1/2ⅹ ${log_2{2}}$ + 1/6ⅹ ${log_2{6}}$ = 1.79 bits
2-1.79=0.21 bits，当小红告诉小明C 有一半概率是对的，所提供的信息就是0.21bits

文章的最后，再来看看一个很简单的题目：加深你对信息量的理解

当小明不知道选择题是 ABCD 哪个选项时：(这时信息量时是 ${log_2{4}}$ =2 bits)

小红告小明 “D 选项是错的”，提供了 0.415 bits 的信息
H(x)=1/3 $*$ ${log_2{3}}$ +1/3 $*$ ${log_2{3}}$ +1/3 $*$ ${log_2{3}}$ =1.585 bits
2-1.585=0.415 bit
再告诉小明 “A选项是错的”，提供了 0.585 bits 的信息
H(x)=1/2 $*$ ${log_2{2}}$ +1/2 $*$ ${log_2{2}}$ = 1 bit
1.585-1=0.585 bit
再告诉小明 “B选项是错的”，提供了 1 bit 的信息
H(x)=1 $*$ ${log_2{1}}$ =0 bit
1-0=1 bit

5.总结：

香农信息论，简单的叙述就是，事件发生的可能性用来描述不确定性，信息通过不确定性的测量来定义。事情的不确定性越大，包含的信息就越多。其实文章中所提到的信息量就是信息熵。因为熵这个概念需要单独一篇文章来解释，所以这里就没替换。
后面我会再讲讲关于信息熵、条件熵、以及联合熵的概念，包括机器学习里面最常用的交叉熵损失函数，以及MDL准则(原理也是熵)。千万不要觉得熵是学信息论的人学的，如果一个学计算的人不知道熵，不知道会不会被嘲笑~~

参考资料：可以关注微信公众号：超智能体，他里面有很多有意思的东西，每个视频也就几分钟，但是真的很有意思！非常推荐大家可以去看看！本文章就是根据里面的视频所写~

文章如有不当之处，请多多指教！评论区见 ~ ∩ω∩

凉、介

发布了4 篇原创文章 · 获赞 8 · 访问量 284

私信关注