RecSys 2016总结

版权归作者所有,任何形式转载请联系作者。
作者:咚咚咚diduan(来自豆瓣)
来源:https://www.douban.com/note/583716751/


会议信息
1. RecSys 2016是推荐系统第十届会议(Happy 10th. birthday to RecSys),也是RecSys有史以来规模最宏大,参与人数最多的会议,有超过300名学术界和工业界的同仁参会。
2. 本次会议共有4个tutorial,3个keynots,9个workshop,30个demo和posters,以及RecSys Challenge竞赛关节,共有20多个组织赞助。录取论文包括51篇学术论文,15篇工业界论文,9篇past present and future论文;其中long paper录取率为18%,short paper录取率为20%。研究方向覆盖了人因(human factors),上下文感知,冷启动,多样性与新颖性,推荐算法(如矩阵分解,深度学习等)等方面。


趋势
1. 深度学习在推荐系统中应用
相比以往的RecSys会议,深度学习方面的论文比重增加,今年有专门的深度学习workshop和论文session;工业界的Google YouTube,Google Play,Spotify都声称用到深度学习技术,应用领域包括构建特征,生成推荐候选集合,以及预测推荐分值。
我与几位机器学习的研究者(Romaric Gaudel教授,曹雪智博士等)交流,他们也认为深度学习是今年的一个趋势,但没有预期中那么多的研究成果。Claudia Perlich(第一个Keynote演讲者)在keynote上回答关于深度学习在推荐系统应用前景的问题时,认为深度学习适合解决结构化的问题,如NLP,声音,图像等,能否成为推荐系统的主流模型还有待观察。
2. 完整的系统级的推荐系统研究
Joseph Konstan教授(第一届RecSys的主席)认为,今年有更多研究是end to end完整的、系统级的研究,不再只偏重于具体一个方面(如算法),这个趋势与Recommendation System会议的主旨更加相符。
3. 对Metrics有了更多的思考
    在今年的会议中,大家明显对于推荐的评价指标有了更为深入的思考和理解,不再只简单关注短期准确率的目标,对长期目标有了较多思考,如推荐系统对于用户的长期维系:
(1) Joseph Konstan:“CTR只是点击行为,而为什么点击?产生点击的决策机制是什么?后面的2个问题也是推荐系统需要研究的”
(2) Claudia Perlich:web的点击中有40%来自Bot,移动设备的点击中有36%属于用户unintentionally的点击;如果不加甄别地用这样的数据来学习,学到的是大量掺杂了非用户真实需求的模型。
(3) Xavier Amatriain: 系统要以“用户的长期维系”为目标,需要综合考虑用户的显示反馈行为和多元的隐式反馈行为。
(4) Michael Ekstrand: 预估CTR,往往不能理解用户真实的意图(desire);下载行为也不能代表用户是满意的,当我们深入了解用户意图和行为后,推荐系统能发挥更大巨大作用。


工业界的广泛参与
今年RecSys来自工业界的sponsor有18家公司。参会者来自工业界的超过一半,其中阿里派出了超过10人的团队参会;连很少在学术会议上出现的Apple也有人参会;其它参会公司包括Mendeley, Meetup, Bloomberg, Foursquare, Spotify, Net¬flix, Pandora, Stitch Fix, Expedia, Nara Logics, GraphSQL, Retail Rocket, Quora, Google, Pinterest。各大公司均积极招聘,了解推荐系统的最新动向,与学术界交流紧密。
主会有3个session介绍工业界推荐系统的工作,其中包括1个session专门分享工业界在推荐系统方面的经验(具体经验后文有介绍)。大约1/3论文的作者有工业界背景;不少公司的推荐系统领导者都有很强的学术背景,如Quora的Xavier和Lei Yang,Google Now的 Shashi Thakur,Dstillery的Claudia Perlich等。
工业界的经验分享:
1. Keynote:
Claudia Perlich   是Distillery(广告解决方案公司)的首席科学家,其所在的Distillery公司每天处理500亿的数据样本,其采用的技术方案包括LR,SGD,Hashing,Streaming,L1 & L2 regularization。在keynote中,她阐述了2个观点:
观点1:“Predictability bias: models tend to go where the signal is”
模型为何预测的准确,因为有的signal令模型更准确,但有些signal是noise的,并非用户的自身的喜好,比如:
(1)Bot traffic占了互联网36%的流量,很多转化率时间是bot做到的,结论是bot的行为容易预测,而用户的行为仍然难以预测;
(2)移动设备上40%的点击行为时accidental的无用点击,结论是accidental容易预测,认得行为不容易预测。
所以要深刻理解用户的行为。
观点2:“bad metrics with good machine learning is almost always a disaster”
可以思考这样的问题:CTR是最好的优化目标吗?百度的搜索结果为什么比不过Google,前者只用CTR标注,后者始终保持大量的人工标注(一个在Google实习的人透露的),精巧的人工标注可以让搜索结果质量更高。
2. Lessons learned from build real-life Recsys:Xavier介绍了其在Quora和Netflix构建推荐系统时的经验:
(1) Implicit feedback is more important:需要注意的是implicit feedback有时并非与用户长期维系目标相符,所以有时需要将显示反馈与隐式反馈结合起来
(2) 认真考虑训练数据:定义合理的正负例
(3) 推荐的解释有时比预测准确率重要
(4) MF是最好的single approach,MF的变形包括FM,SVD++,ALS等;Quora开源了他们的MF模型QMF
(5) Ensemble is the master algorithm
(6) Feature Engineering: 需要理解领域信息,了解推荐目的和用户需求,将以上信息转化为特征;好的特征具有如下特点:reusable, transformable, interpretable, reliable; 深度学习也是构建特征的一种方法
(7) 合理的评价策略
i. Offline vs. online: a critical issue is how offline metrics correlate with A/B test results
ii. Long-term metric (member retention) vs. short-term metric 
(8) Model debuggability: to determine particular model to use; features to rely on; implementation of tools.
3. Bloomberg的新闻推荐考虑用户兴趣迁移的问题,并通过对推荐结果reshuffling的机制防止用户兴趣过于集中;
4. Foursquare构建个人助理MarsBot,进行hotel,restaurant等内容的推荐,Marsbot以短信通知、push、personality and onboarding为主要特征,实施存文字的交互对话引导,当用户感兴趣后,在后续会话文字中加入产品链接,避免直接推荐链接引起用户的不满;
5. Spotify的音乐个性化推荐采用推荐策略包括:专家标注,元数据,音乐声学信号,CF,以及混合策略,模型使用了latent factor model,深度学习模型;排序部分会考虑:相似度,相关度,多样性,流行度,新鲜度,使用了MAB的方法。
6. Google Play的经验分享
(1) Always Run live experiments
(2) 尽可能简单
(3) 选择合理优化目标
7. Pinterests的经验分享
(1) 候选集生成策略:图片候选集生成策略较为简单,主要使用图片相似性,相似性计算方位共现次数
(2) 应用linearRankSVM模型和GBDT涌现,特征包括图片特征、query特征,用户上下文特征用于个性化。
(3) collecting unbiased training data


推荐模型和技术
在推荐系统中被工业界广泛使用的有效的模型主要有:logistic regression,matrix factorization,Gradient boosting decision tree,其中LR被广泛用于CTR的预估;matrix factorization模型包括SVD++,factorization machine,ALS等方法,是工业很推崇的方法;今年RecSys challenge的前三名均使用GBDT的方法。其他被工业界使用的技术还包括:SGD,采样,哈希,L1&L2正则,实时流数据分析等;Spotify还声称他们用了MAB的方法。
YouTube Recommendation使用了深度学习技术,用于候选集的生成和排序。
林智仁老师团队应用field-aware factorization machine模型进行广告的CTR预估,取得了2个竞赛的关键,相关研究成果也发表在今年的RecSys上。


值得关注的论文
1. A Scalable Approach for Periodical Personalized Recommendations
2. Adaptive, Personalized Diversity for Visual Discovery 
3. Field-aware Factorization Machines for CTR Prediction 
4. Local Item-Item Models for Top-N Recommendation  (Best paper)
5. Mechanism Design for Personalized Recommender Systems 
6. Deep Neural Networks for YouTube Recommendations 
7. Past, Present, and Future of Recommender Systems: An Industry Perspective (author:Xavier Amatriain)
8. Algorithms Aside: Recommendation as the Lens Of Life  (演讲的胶片非常艺术流)
9. Meta-Prod2Vec - Product Embeddings Using Side-Information for Recommendation
10. Are You Influenced by Others When Rating? Improve Rating Prediction by Conformity Modeling (余勇老师组做的工作)
工业界的几篇论文:
1. When Recommendation Systems Go Bad  (meetup)
2. News Recommendations at scale at Bloomberg Media: Challenges and Approaches (Bloomber)
3. Marsbot: Building a Personal Assistant (Foursqure)
4. Music Personalization at Spotify (Spotify)
5. Recommending for the World (Netflix)
6. The Exploit-Explore Dilemma in Music Recommendation  (Pandora)
7. Tutorial: Lessons Learned from Building Real-life Recommender Systems  (Xavier’ tutorial)


很高兴在今年的RecSys见到以前的朋友、老师和同窗,结交新朋友。RecSys是一个朝气蓬勃的社区,面向解决实际问题的推荐和搜索人才密度高。2019年的RecSys将回到亚洲,很有可能在中国举办。

猜你喜欢

转载自blog.csdn.net/qq_34562093/article/details/79916774