一、信息量
- 定义:用一个信息的编码长度。
- 性质:编码长度与出现的概率成负相关。(如:哈夫曼编码)
- 公式(0/1编码)
I=log2(p(x)1)=−log2(p(x))
二、信息熵
- 定义:一个分布的信息量。(编码的平均长度/信息量的均值)
- 公式
H(p)=x∑p(x)log2(p(x)1)=−x∑p(x)log2(p(x))
三、交叉熵 cross-entropy
- 定义:用猜测的分布
(p)的编码方式 编码 真实的分布
(q),得到的平均编码长度/信息量均值。
因为参考的博客公式推导有冲突,有人认为p为真实分布,我暂且认为q为真实分布。
- 公式
Hp(q)=x∑q(x)log2(p(x)1)
- 意义:不同分布之间的距离度量。
- 应用:最后的损失函数。(交叉熵 本质上相当于衡量两个编码方式之间的差值,只有当猜测的分布约接近于真实分布,其值越小)
具体说明,详见 信息量,信息熵,交叉熵,KL散度和互信息(信息增益),
没太懂,以后遇到再细看。
四、KL散度(相对熵)
- 别名:KL距离、相对熵。(
D(q∣∣p)、Dq(p):q对p的相对熵)
- 公式(相对熵=交叉熵-信息熵)
Dq(p)=Hq(p)−H(p)=x∑p(x)log2(q(x)p(x))
- 意义:同一随机事件+不同分布 间的距离度量。
- 图示
- 性质(非负性):
Dq(p)≥0。
四、联合信息熵和条件信息熵
-
公式
a. 联合信息熵
H(X,Y)=x,y∑p(x,y)log2(p(x,y)1)
b. 条件信息熵
H(Y∣X)=H(X,Y)−H(X)
=x∑p(x)y∑p(y∣x)log2(p(y∣x)1)
=x,y∑p(x,y)log2(p(y∣x)1)
-
意义:联合分布是 同一个分布中 两变量相互影响的关系。
-
图示
五、互信息(信息增益)
- 定义:一个联合分布中 两个信息的纠缠程度/相互影响那部分的信息量
- 公式
I(X,Y)=H(X)+H(Y)−H(X,Y)
=H(Y)−H(Y∣X)
- 性质(非负性):
I(X,Y)≥0。
- 图示
- 应用:决策树。
六、variation of information
- 定义:联合分布(即同一个分布)两个变量相互影响的关系 。
- 公式
V(X,Y)=H(X,Y)−I(X,Y)
- 意义:度量 不同随机变量间的差别。
V(X,Y)=0:说明这两个变量完全一致。
V(X,Y)值越大 说明两个变量越独立。
参考:
信息量,信息熵,交叉熵,KL散度和互信息(信息增益)
KL散度、JS散度、Wasserstein距离
一文搞懂散度(KL,MMD距离、Wasserstein距离)