背景:
电商中经常需要计算或预测商品的转化率。点击率r=C/I,考虑两种情况:
1、对于冷启的商品,点击和曝光量都是0,此时,这个商品的CTR应是多少?
2、极端情况下,商品的曝光量是1,点击量是1,此时明显CTR过大。
如何改善计算方法使得计算结果相对准确呢?下面两种方法都一定程度上缓解了小样本数据带来的计算准确度不高的情况。
一、威尔逊区间方法(相比于正态分布的置信区间)
1、背景:正态分布置信区间
例如根据给定样本估计出了一个参数a,那么参数a 的95%的置信区间表示真实的a在某区间内的概率为95%。
举个栗子,我们测量了40个随机选择的男人的身高,结果是平均身高:175cm,标准差:20cm。假设身高符合正态分布,那么某个置信度下的置信区间是 , 其中X是平均身高,z是相应置信度对应的查表得到的值,n是样本个数,s是样本标准差。
将上述结果带入置信区间公式得到,即,也就是从168.8cm到181.2cm,误差界是6.20cm。
总结:给定身高样本,假设身高服从正态分布,我们估计男人身高值95%的置信区间为[168.8cm, 181.2cm];对于,同样分布的两组样本,根据数量多的样本得到的95%置信区间比样本数量少的要窄,这表明样本越多,对于我们估计出来的参数值越自信。中心极限定理告诉我们,当样本足够多时,任何分布都渐进于正态分布,也就是正态分布近似依赖于中心极限定理,但是这种正只适合样本数量较多的情况(np > 5 且 n(1 − p) > 5),对于小样本,准确率不高。
2、威尔逊区间
1927年,美国数学家 Edwin Bidwell Wilson提出了一个修正公式,被称为"威尔逊区间",很好地解决了小样本的准确性问题。
利用威尔逊区间的下限作为偏好值,n越小,置信区间越大,得到的偏好值越小。当n较大时,偏好值接近于p值。
二、贝叶斯平滑
贝叶斯平滑的思想是给偏好得分预设一个经验初始值,再通过当前的点击量和曝光量来修正这个初始值,在转化率的分子分母中同时加上一个数,可避免上述两个问题,r=(C+a)/(I+b)。若冷启商品的曝光和点击都是0,那么该商品的初始CTR就是这个经验初始值;若商品的曝光量较小,可以通过这个经验初始值来进行修正,适当减少CTR值,使得曝光量大的商品的CTR更可信。
1、贝叶斯估计
需要利用先验分布和概率密度函数得到r的后验分布。
假设:
(1)对于每个商品,是否被点击是一个伯努利分布;(点击为1,未点击为0)
(2)商品的点击率 r 服从beta分布。
对于假设1,X~Ber(r), r是要估计的参数,则数据的分布是,其中,已知二项分布的共轭先验是beta分布,因此我们有假设2 :。此时,r的后验分布和先验分布是相同的形式。我们要得到r的后验分布,此时,后验分布也服从beta分布,最终后验分布的形式是。
利用最小化平方差损失函数对参数进行贝叶斯估计,下面对参数a和b进行参数估计,具体方法:矩估计、极大似然估计
矩估计:, 由于上面假设r服从beta分布,beta分布的期望是,方差是,可以用历史数据的均值代替期望,样本的方差代替总体的方差,得到的值。是偏好均值,是偏好的方差