信息论
1.自信息量
一个事件的自信息量是该事件发生概率的负对数,事件发生的概率越大,自信息量越少,反之自信息量越多。也称不确定性函数,具有可加性。定义自信息量I(x):
2.信息熵
熵,热力学中表征物质状态的参量之一,用符号S表示,其物理意义是体系混乱程度的度量。
信息熵用来对信息进行量化度量,用来描述信源的不确定度。信息中排除了冗余后的平均信息量称为信息熵
信息熵是自信息量的期望,信息熵一般用来描述一个信息源,这个信息源可能有多个随机事件,所有随机事件发生的概率和为1.这个信息源的熵就是信息源产生的随机事件的自信息量的期望。信息熵越大系统越混乱,不确定性越大。定义信息熵H,单位为比特:
3.联合熵
两个变量X和Y的联合信息熵定义为:
其中x和y是X和Y的特定值,相应的P(x,y)是这些值一起出现的联合概率,若P(x,y)=0,则P(x,y)log2[P(x,y)]定义为0.
同样的形式可以扩展至两个以上的变量的情况。
性质
大于每个独立的熵,一集变量的联合熵大于或等于这集变量中任一个变量的独立熵。
少于独立熵的和,该不等式有且只有在X和Y均为统计独立时相等。
、
和其他熵测量手段的关系
条件熵:
互信息:
4.交叉熵
用来度量两个概率分布间的差异性信息。在信息论中,交叉熵是表示两个概率分布p,q,其中p为真实分布,q为非真实分布。假如按照真实分布p来衡量识别一个样本所需要的编码长度的期望为:
但是用非真实分布q来表示来自真实分布p的平均编码长度,则是:
此时将H(p,q)称为交叉熵,交叉熵在机器学习中经常用作损失函数,用来衡量真实标记分布于模型预测分布的相似度。交叉熵作为损失函数的好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题,因为学习速率可以被输出的误差所控制。
5.相对熵
相对熵又称为KLKL散度,信息散度。是描述两个概率分布P和Q差异的一种方法。它是非对称的即D(P||Q)≠D(Q||P)。在信息论中,D(P||Q)表示当用概率分布Q来拟合真实分布P时产生的信息损耗,其中P表示真实分布,Q表示P的拟合分布。
设P(x)和Q(x)是X取值的两个离散概率分布,则P对Q的相对熵为:
对于连续的随机变量,定义为:
相对熵是两个概率分布P和Q差别的非对称性的度量。
2. 互信息
互信息可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。
设两个随机变量(X,Y)的联合分布为p(x,y),边界分布分别为p(x), p(y),互信息I(X,Y)是联合分布p(x,y)与乘积分布p(x)p(y)的相对熵,即:
6.信息增益
信息增益在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好,在概率中定义为:待分类的集合的熵和选定某个特征的条件熵之差(这里只的是经验熵或经验条件熵,由于真正的熵并不知道,是根据样本计算出来的),公式如下:
注意:这里不要理解偏差,因为上边说了熵是类别的,但是在这里又说是集合的熵,没区别,因为在计算熵的时候是根据各个类别对应的值求期望来等到熵
7. KL 散度(相对熵)
相对熵又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度(即KL散度)等。设 和
是 取值的两个概率概率分布,则 对 的相对熵为
在一定程度上,熵可以度量两个随机变量的距离。KL散度是两个概率分布P和Q差别的非对称性的度量。KL散度是 用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。 典型情况下,P表示数据的真实分布,Q表示数据的理论分布,模型分布,或P的近似分布。
相对熵可以衡量两个随机分布之间的距离,当两个随机分布相同时,它们的相对熵为零,当两个随机分布的差别增大时,它们的相对熵也会增大。所以相对熵(KL散度)可以用于比较文本的相似度,先统计出词的频率,然后计算 KL散度就行了。另外,在多指标系统评估中,指标权重分配是一个重点和难点,通过相对熵可以处理。
参考链接:
https://blog.csdn.net/weixin_39837402/article/details/82720804