信息量、信息熵、KL散度、交叉熵

一、信息量

定义:

       香农(C. E. Shannon)信息论应用概率来描述不确定性。信息是用不确定性的量度定义的。一个消息的可能性愈小,其信息愈多;而消息的可能性愈大,则其信息量愈少;事件出现的概率小,不确定性越多,信息量就大,反之则少。香农认为“信息是用来消除随机不确定性的东西”,也就是说衡量信息量的大小就是看这个信息消除不确定性的程度。

公式:

在这里插入图片描述

示例:

1)“明天太阳从东边升起”,信息量为0。
2)“明天我会中500W彩票”,信息量很大。

二、信息熵

定义:

       信息熵也被称为熵,用来表示所有信息量的期望,期望是实验中每次可能结果的概率乘以其结果的总和。信息熵代表的是随机变量或整个系统的不确定性,熵越大,随机变量或系统的不确定性就越大。

公式:

在这里插入图片描述

示例:

使用明天的天气来计算信息熵:
在这里插入图片描述

0-1分布:

       对于0-1分布的问题,由于结果只有两种情况,是或不是,设某一件事情发生的概率为P(x),则另一件事情发生的概率为1-P(x),所以对于0-1分布的问题,计算熵的公式可以简化如下:
在这里插入图片描述

三、相对熵(KL散度)

定义:

       如果对于一个随机变量X有两个单独的概率分布P(x)和Q(x),则我们可以使用KL散度来衡量这两个概率分布之间的差异。

公式:

在这里插入图片描述

示例:

       在机器学习中,常常使用P(x)来表示样本的真实分布,Q(x)来表示模型所预测的分布,比如在一个三分类任务中(例如,猫狗马分类器),分别代表猫,马,狗。例如一张猫的图片真实分布P(X)=[1,0,0],预测分布Q(X)=[0.7,0.2,0.1],计算KL散度:
在这里插入图片描述

四、交叉熵

定义:

       首先将KL散度公式拆开:
在这里插入图片描述
       H(p(x))表示信息熵,后者即为交叉熵,KL散度=交叉熵-信息熵

扫描二维码关注公众号,回复: 12394582 查看本文章
公式:

在这里插入图片描述
       在机器学习训练网络时,输入数据与标签常常已经确定,那么真实概率分布P(x)也就确定下来了,所以信息熵在这里就是一个常量。由于KL散度的值表示真实概率分布P(x)与预测概率分布Q(x)之间的差异,值越小表示预测效果越好,所以需要最小化KL散度,而交叉熵等于KL散度加上一个常量(信息熵),且公式相比KL散度更加容易计算,所以在机器学习中常常使用交叉熵损失函数来计算loss。

交叉熵在多分类问题中的应用:

       在线性回归问题中,常常使用MSE(Mean Squared Error)作为loss函数,而在分类问题中常常使用交叉熵作为loss函数。
       例如,我们输入一张狗的图片,标签和预测值如下:
在这里插入图片描述

总结:

● 交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度,在机器学习中就表示真实概率分布与预测分布之间的差异。交叉熵的值越小,模型预测的效果就越好。
● 交叉熵在分类问题中常常与softmax是标配,softmax将输出的结果进行处理,使其多个分类的预测值和为1,再通过交叉熵来计算损失。

猜你喜欢

转载自blog.csdn.net/Roaddd/article/details/111240987