目录
1. 数据分类-显性反馈和隐性反馈
在训练分类/推荐模型时使用的数据可以分为两种,显性和隐性反馈数据。
显性反馈数据:用户明确喜欢和不喜欢的物品(或明确有类别的数据)
隐形反馈数据:用户浏览过的物品,但并未明确表示喜欢或厌恶。这种类型数据只能认为全部是正反馈也即喜欢的物品。
举个栗子:
用户在爱奇艺给某个电影评分为10分,那显然用户是喜爱这部电影的。
用户这段时间看了10部电影,但是没有评分,我们不知道他到底喜不喜欢,但可以作为一个参考数据。
显性数据确实能给我们极大的便利,但是很多情况下是没有或缺少显性数据的。而隐形反馈数据很容易获取,所以介绍这两种数据训练出模型的评价方法。
2. 显性反馈数据模型评价方法
模型判定推荐的 |
模型判定不被推荐的 |
|
---|---|---|
测试集中应当被推荐的 |
true positives(TP 正类判定为正类) |
false positives(FP 负类判定为正类) |
测试集中不应被推荐的 | false negatives(FN 正类判定为负类) | true negatives(TN 负类判定为负类) |
根据TP ,FP , FN ,TN就可以计算精确率和召回率。再以精确率和召回率计算其他评价方法。
精确率(precision)的公式是
召回率(recall)的公式是
这两个数据是相互制约的,所以通常使用两者结合的F-Measure,来计算。
当β取1时,是最常用的F1-Measure
3. 隐性反馈数据介绍
隐性反馈数据有诸多弊端,例如不明确,具有噪点数据,但是由于他广泛存在,我们有时甚至只能利用它,所以还是要详细研究一下。
显性反馈数据可以看出用户对某一物品的偏好值,例如评分机制,8分和10分的区别,而隐性反馈数据没办法衡量偏好值,只能认为用户浏览同一内容越多,越有可能喜好这个内容,也即置信度越大。