香浓定理和信息量的理解

10多年前的本科的信息论课上就知道了香浓定理，后面时不时这个词还会出现，但到最近其实还不太明白这个定理到底有什么用。

要理解一个定理的意义一定要回到提出它的背景中来看。我们虚构这样一个场景：

100多年前，在英国每周都会举行一个赛马比赛。每次比赛都是相同的8只马来比赛。在大西洋彼岸的纽约华尔街的某些人非常关注每周赛马的结果，因为他们发现优胜的马的结果和某个股票的涨跌有非常大的相关性。

当时正好是横跨大西洋的电报电缆刚刚修通，这条电缆花费数年的时间，上亿美元的巨资，而且每小时能传输的比特数（0,1的个数）非常有限。所以想要使用这条电脑发送信息的价格也是非常昂贵：发送一个bit（一个0或者1）需要100美元。

于是华尔街的人就在想怎么能用尽量少的前，把优胜的结果传到大洋彼岸。最直接的方法就是给每匹马编号，从0到7。这样的话每次结果的通知需要3个bit，也就是300美元。那么是否还有更优的方案呢？

华尔街的人又发现这8匹马优胜的概率差异很大：有两匹马几乎是90%的赢得比赛。那么能不能这两匹马就用少一些的位数来代表呢？比如只用1位来代表这两匹马。也就是90%的时候，只用1bit的信息就传达的需要的意思。这样平均下来的花费是少于每周300美元的。

更进一步，人们想问，这个价格降低的极限是多少呢？香浓定理就告诉了这个结果：不管用怎样的编码策略，至少需要用香浓定理算出来的那么多位。

基于香浓定理，还可以看出，当使用最优编码的时候，发生概率大的事件，必须要用更短的编码来表示。也就是说香浓定理里面对单个事件的熵代表了这个事件真正的信息量，因为只要我们使用比熵更多的位数来表示，就不能得到最短的编码方式。所以又把熵定义为一个事件发生的信息量。这样就可以把毫不相关的事情，用一个相同的量来代表他们的信息量。

香浓定理和信息量的理解

猜你喜欢