点击率预估(CTR)之传统输入方法描述和常用数据集

目录

CTR问题定义:

传统输入描述(one_hot):

常用数据集


CTR问题定义:

点击率预测(Click-Through Rate Prediction)是根据给定广告、用户和上下文情况等信息,对每次广告(或者商品)的点击情况做出预测。其中,对于用户历史行为数据的挖掘尤为重要,从这些历史行为中我们可以获取更多的关于用户兴趣的信息,从而帮助作出更准确的CTR预估。预估准确性直接影响公司收入。CTR预估中用的最多的模型是LR(Logistic Regression)、DIN等;

传统输入描述(one_hot):

例如给定一个样本数据如:

是否点击 国家 日期 广告商品类型
1 日本 19.1.12 电影
0 美国 19.1.10 游戏
1 日本 19.1.12 游戏

上述的三个特征都是非线性的,因此如果将其特征表示为向量形式,只能采用独热编码的方式(one-hot):

标签 美国 日本 19.1.10 19.1.12 电影 游戏
1 0 1 0 1 1 0
0 1 0 1 0 0 1
1 0 1 0 1 0 1

因此,上述特征的编码形式存在一定的问题,一是一般categories特征经过one-hot编码以后,样本数据会变得很稀疏,假设有10万个item,如果对item的这个维度进行one-hot编码,这个维度的数据稀疏性就是十万分之一,所以数据的稀疏性是,是实际应用中常见的挑战。其次one-hot编码的另一个问题是特征空间变大,上面的10万个item,编码后样本空间有一个categories会变成10万维,特征空间会暴增。因此需要进一步的优化,例如FM方法等。

常用数据集

1.Display Advertising Challenge挑战的criteo数据集

2. 淘宝数据集

3. 亚马逊数据集

以亚马逊数据集为例,我们给出数据集的描述:

meta_Electronics.json

asin    产品的ID
imUrl    产品图片地址
description    产品描述
categories    产品所属的类别列表
title    产品名称
Price 价格
salesRank 销售排名信息
related 相关产品(也已购买,也已查看,一起购买,已查看后购买)
Brand 品牌

reviews_Electronics_5.json

reviews_Electronics数据    
reviewerID    评论者id,例如[A2SUAM1J3GNN3B]
asin    产品的id,例如[0000013714]
reviewerName    评论者昵称
helpful    评论的有用性评级,例如2/3
reviewText    评论文本
overall    产品的评级
summary    评论摘要
unixReviewTime    审核时间(unix时间)
reviewTime    审核时间(原始)
meta_Electronics 数据    

发布了38 篇原创文章 · 获赞 192 · 访问量 18万+

猜你喜欢

转载自blog.csdn.net/weixin_40651515/article/details/104665672