腾讯信息流内容理解技术实践

导读:目前信息流推荐中使用的内容理解技术,主要有两部分构成:

1. 门户时代和搜索时代遗留的技术积累:分类、关键词以及知识图谱相关技术;

2. 深度学习带来的技术福利:embedding。但是分类对于兴趣点刻画太粗,实体又容易引起推荐多样性问题,而 embedding 技术又面临难以解释的问题。这次主要介绍在信息流推荐中,腾讯是如何做内容理解克服上述问题的。主要包括:

  • 项目背景

  • 兴趣图谱

  • 内容理解

  • 线上效果

项目背景

1. 内容理解技术演进

① 门户时代:1995~2002年,主要代表公司:Yahoo、网易、搜狐、腾讯。互联网初期,因为数据较少,因此需要一个内容聚合的地方,人们才能够快速的找到信息。因此,门户通过 "内容类型" 对内容进行整理,然后以频道页形式满足用户需求。因为数据少,初期由人工对新闻进行分类。随着数据的增多,靠人工分类已经变得不现实,因此各大公司纷纷引入分类技术,自动化文本分类。此后,文本分类技术发展迅速。

② 搜索/社交时代:2003年~至今,主要代表公司:搜狗、腾讯、Google、百度。随着网络的普及,数据的数量和类型的丰富,门户网站已经不能够承载信息分发的任务。于是,一种新的信息分发技术诞生——搜索。搜索除了需要分类信息以外,还需要精确知道文章是 

猜你喜欢

转载自blog.csdn.net/jxq0816/article/details/103507870
今日推荐