信息流产品和内容推荐算法

(一)什么是信息流产品

当下,信息流(资讯)和短视频是唯一两个在用户领域保持好的增长事态的细分行业。像其他比较成熟的互联网细分行业,比如说移动社交,电商,OTO这个细分行业,用户已经饱和了,用户增长比较缓慢,而短视频以及信息流是一个很迅猛的用户增长的势头。

信息流产品是一个非常好的用作商业变现的产品形态。

1. 信息流产品的特点

  • 信息流产品

    • 在合适的场景下,为用户提供合适的内容
    • 适合手机屏幕,手指上下滑动,如水流般源源不断
    • 数据量足够大,能够不断刷出新内容

2. 对用户价值

从用户层面讲,信息流产品对于用户价值,主要体现在下面四个方面

  • 便捷阅读

    • 相对于传统的书籍,杂志,信息流产品会是一个便捷的阅读方式
  • 海量信息

  • 新鲜及时

  • 个人兴趣

3. 商业上的价值

商业上的价值就是信息流广告
信息流广告是一种很高效的变现模式

  • 就像曾经的搜索广告,信息流广告已经成为用户接受的、高效变现模式

今日头条 DAU(日活)超过1.2 亿,人均时长70分钟+,年均广告营收150亿+;
网易DAU超过2千万,人均时长40分钟+,年均广告营收50亿+;

(二)如何推荐内容

信息流产品的本质是推荐内容,那怎么样推荐内容呢?

扫描二维码关注公众号,回复: 9075254 查看本文章

1. 推荐内容的两种方法

一种是人工运营的方法,人工去筛选一套人工的经验去对新闻价值做出判断;另外一种就是依靠机器,依靠算法去做推荐,这两种推荐内容的方法各有优劣。

2.为什么要用算法

大数据时代,每天更新的内容是海量的。而人工运营,往往局限于热点内容,就像是冰山一角。冰山之下,是大量的长尾、冷门的内容,必须依赖机器算法做个性化推荐。

3. 推荐系统框架

  • 理论上的简化框架
    在这里插入图片描述
  • 推荐系统实操
    在这里插入图片描述
    我们会有合作伙伴(Partner),也会有爬虫(Crawler),我们通过爬虫或者是合作伙伴会把我们的数据抓到我们的库里,大概库里每天文章的更新会在 20 万左右,文章入库之后,我们通过 Content Parser(分词提取器)会对文章做一些语义分析、文本分析去生成一些文章相关的标签或者类型等一些特征,通过过滤之后,我们会把这些数据放在 Feeder 的数据库。Feeder 一方面与这个Feature Server 相交互,会把数据传递到 index(用户兴趣索引)。用户会根据会话的行为,会做一些记录和上报,同时会把这些数据(Session Server)同步更新到用户索引上。Index 之后的召回(Recall),对于一个用户来讲,我们第一次召回,会召回 2000 篇文章左右。这 2000 篇文章的来源一个是CF(协同过滤) ,CF又来源于 ItemCF 就是基于内容的相似度(我之前看过一篇文章,我会推一个跟之前文章相似的文章,就是基于文章相似度做一个推荐),UserCF就是基于用户相似度的协同过滤,就是通过计算,找出用户跟另外一个人类似,然后就会把另一个人看过的文章和感兴趣的内容也推给这个用户。另外还有一种召回内容的方式叫 CB 就是基于内容本身,比如说这篇文章是体育,那这篇文章就会推送给有体育标签的用户。比如说一篇文章有关键字,有科比,那就会推荐给带有科比标签的用户。NH 就是在当前系统里比较热门的文章,那我们怎么判断那些是热门的文章呢,首先是依据 action 就是行为,因为每篇文章可以会被用户阅读,被用户点赞,被用户评论,被用户分享,我们还会制定一些权重,那我们对这些行为做一个分析,我们可以判断这个文章是一个热门文章。那我们这些热门文章在召回的时候,也会基于 User Profile(用户属性)比如说性别属性、地区属性等,我们也不会乱推,尽管它是热门文章,我们也要考虑人群的定向化;Time 就是任何热门的东西,都有时间衰减性。
    下面说 Rank 这个模块,就是排序的模块。这个模块我们会说从刚刚 2000 篇的文章里筛选出 200 篇文章,并且对这 200 篇文章进行排序。那我们这 200 篇文章是怎么排序的呢?我们会对这 200 篇文章进行 CTR 的预估,以及阅读时长的预估。为什么不只做 CTR 的预估,就是系统要避免“标题档”的存在。从这200篇文章里,最后到 Rerank 的模块,就是从 200 篇文章里审出 15 篇文章。我们用贝叶斯的方法对这个15篇,主要要增加文章的多样性,我们要把同类推荐的文章打散;Fix 就是在这15 篇文章里增加探索性的内容,我们不希望让用户的标签固化,就是一个用户打上了体育标签,我们不希望这个用户永远会是这个标签,我们偶尔也会加 5%-10% 左右的探索性的内容。

(三)推荐质量的评估

1. 流量该如何分配

  • 70% 的流量分配给稳定模型

  • 30% 的流量分配给实验模型

    • 10% 实验模型A
    • 10% 实验模型B
    • 10% 实验模型C

2. 实验模型的评测指标

  • 准确率

    • 推荐列表里,多少比例的文章,是用户读过的;
  • 召回率

    • 推荐列表中,用户度过的文章,占用户阅读记录的比例
  • 覆盖率

    • 推荐列表的文章里,占文章总数的比例

举例:文章总量为100,用户实际看了10篇文章,最终实验模型推荐了20篇文章,用户看过的有8篇,准确率为40%,召回率为80%,覆盖率为20%;

3. 实际业务中关注的算法效果

  • UV 转化率

    • 阅读UV/曝光UV,反映多少比例的曝光用户转化为阅读用户
  • PV 转化率

    • 阅读PV/曝光PV,反映文章的平均转化情况
  • 人均篇数

    • 阅读PV/阅读UV,反映内容消费深度
  • 人均阅读时长

    • 阅读总时长/阅读UV,反映内容消费深度
发布了101 篇原创文章 · 获赞 136 · 访问量 16万+

猜你喜欢

转载自blog.csdn.net/jacky_zhuyuanlu/article/details/103362368
今日推荐