CTR预估中模型设计

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/a940902940902/article/details/86026101

KL散度与交叉熵

定义 log(1/p) 为香农信息量
定义熵为香农信息量的期望 即E(pi)=∑ipilog(1/pi)
我们都知道 在机器学习中我们要做的就是通过目标函数拟合数据真实分布
定义 数据的真实分布为p ,我们的目标函数拟合的数据分布为q
举例说明:
若包含四个字母(A,B,C,D)的数据集中 其真实分布为(1/2,1/2,0,0) 通过计算E(pi)=1/2log2+1/2log2=1
如果我们使用目标函数的分布(这里假定目标函数的分布为均匀分布)(1/4,1/4,1/4,1/4) E(pi,qi)=pilog1/qi=1/2
log4+1/2*log4=2
这里引入交叉熵
如果使用错误的分布来表征真实分布 H(p,q)=∑i pilog1/qi 称之为交叉熵
因为H(p,q)>=H§ 恒成立 当q预测分布和p一致时取等号
交叉熵可以在机器学习中作为损失函数 表示真实分布p以及机器学习算法预测分布q之间的相似性
同时我们将H(p,q)比H(p)多出来的大小叫做相对熵
即 H(p,q)-H(p)=∑i pilog pi/qi
相对熵又叫做K-L散度 (注意 K-L散度并不表征距离 因为非对称性 即H(p,q) - H§ 和H§-H(p,q)并不相等)

LR

输入:{x,y} 其中 x:{用户,广告,上下文} y:{点击,未点击}

猜你喜欢

转载自blog.csdn.net/a940902940902/article/details/86026101