我们来回顾学习一下这些概念
一、信息
信息是指能消除随机不确定性的内容
,换句话说,告诉你一个想都不用想的事实,就不叫信息了。
比如数据分析师基于大数据想发现一些有用的信息,
- 有一天上班你告诉上级,基于数据中我们发现我们的用户性别有男有女。。。(这不废话吗?)这不叫信息
- 但是如果你告诉上级,女性用户的登录频次、加购率,浏览商品数量远高于男性,且年龄段在25岁~30岁的女性用户消费金额最多,15-20岁最少,那么我相信你老大会眼前一亮的!!!
如何衡量信息量?1948年有一位科学家香农从热力学中的熵概念,引入了信息的概念,得到了信息度量的数据公式:
p(xi) 代表信息发生的可能性,发生的可能性越大,概率越大,则信息越少,通常将这种可能性叫为不确定性,越有可能则越能确定则信息越少
二、信息熵
信息熵则是在信息的基础上,将有可能产生的信息定义为一个随机变量,那么变量的期望就是信息熵,比如上述例子中变量是赢家,有两个取值,中国或西班牙,两个都有自己的信息,再分别乘以概率再求和,就得到了这件事情的信息熵,公式如下: