工业界推荐_Industrial RS(5)

Industrial RS

Meituan

Hongwei et al. Knowledge-aware Graph Neural Networks with Label Smoothness Regularization for Recommender Systems. KDD, 2019.
知识图谱能够捕获实体或item之间的关系，缓解稀疏性，改善推荐系统的性能。以往利用知识图谱做推荐大多依靠特征工程，本文提出了具有标签平滑正则化的知识感知图神经网络。首先利用一个可训练的函数计算item embedding，把知识图转化为加权图（特定用户的）【为了解释KG中的关系异质性】，用图神经网络计算个性化item embeddings【为什么计算、如何计算】，依赖于平滑假设，提供归纳偏差【用来干嘛】。
介绍推荐系统，引出稀疏性和冷启动问题，介绍知识图（捕捉结构化信息和一组实体之间的关系。通过不同类型的关系提供项目之间的连接信息，从而捕获项目之间的语义关联），如何在推荐系统中使用KGs。核心挑战是如何获取KG所定义的用户特定项和项关系（做第2步的原因）。现有方法分为基于路径、基于嵌入和混合方法，均依赖人工特征，扩展性差。发现GNNs架构很有前途，但是现有方法都针对同质的二部用户项目交互图，如何扩展到异构知识图？为了解决问题，提出本文模型。将GNNs体系结构扩展到知识图谱，同时捕获项目之间的语义关系和用户个性化偏好。

KG->加权图，描述了KG的语义信息和用户的个性化兴趣。与传统方式的区别是边权值不是按照实际给出，而是使用关系评分函数设置，以监督方式进行训练（关系评分函数可以知道给定用户更关注电影的导演是谁，还是更关注男主角是谁）。监督信号的唯一来源是用户项目交互（很稀疏），为了解决这个稀疏性问题，开发了一种在学习过程中对边缘权值正则化的技术，从而获得更好的泛化效果。
利用该加权图，通过图神经网络，在项目节点的局部网络领域上聚集节点特征信息来计算每个项目节点的embedding，每个项目的embedding以用户个性化的方式捕捉其本地KG结构。
开发了一种基于标签平滑度的方法，假设KG中的相邻实体可能具有相似的偏好，并证明标签平滑正则化和标签传播是等价的。设计了一个标签传播的留守损失函数，学习边缘评分函数额外提供的监督信号。证明了在同一框架下，知识感知图神经网络可以和标签平滑正则化统一起来，其中标签平滑可以看作是知识感知图神经网络正则化的自然选择。

KG->加权图，再通过GNN得到项目节点embedding。用评分函数设置边权值，评分太少容易过拟合，提出标签平滑度方法。证明：标签平滑度正则化等价标签传播，为学习边缘评分函数额外监督信息设计标签传播的留守损失函数。

Microsoft

Po-Sen et al. Learning Deep Structured Semantic Models for Web Search using Clickthrough Data. CIKM, 2013.
DSSM是Deep Structured Semantic Model的缩写，即我们通常说的基于深度网络的语义模型，其核心思想是将query和doc映射到到共同维度的语义空间中，通过最大化query和doc语义向量之间的余弦相似度，从而训练得到隐含语义模型，达到检索的目的。DSSM有很广泛的应用，比如：搜索引擎检索，广告相关性，问答系统，机器翻译等。
DSSM（Deep Structured Semantic Models）的原理很简单，通过搜索引擎里 Query 和 Title 的海量的点击曝光日志，用 DNN 把 Query 和 Title 表达为低纬语义向量，并通过 cosine 距离来计算两个语义向量的距离，最终训练出语义相似度模型。该模型既可以用来预测两个句子的语义相似度，又可以获得某句子的低纬语义向量表达。
DSSM 从下往上可以分为三层结构：输入层、表示层、匹配层

Ali Elkahky et al. A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems. WWW, 2015.
MULTI-VIEW-DNN 联合了多个域做的丰富特征，使用multi-view DNN模型构建推荐，包括app、新闻、电影和TV，相比于最好的算法，老用户提升49%，新用户提升110%。并且可以轻松的涵盖大量用户，解决冷启动问题。
主要做user embedding的过程，通多用户在多个域的行为作为一个ivew，来表征用户，参与用户embedding过程。
Contribution

利用丰富的用户特征，建立多用途的用户推荐系统。
针对基于内容的推荐，提出了一种深度学习方法。并学习不同的技术扩展推荐系统。
结合不同领域的数据，提出了Multi-View DNN模型建立推荐系统。
multi-view DNN模型解决用户冷启动问题。
基于四个真实的大规模数据集，通过严格的实验证明所提出的推荐系统的有效性。

Oren et al. ITEM2VEC: NEURAL ITEM EMBEDDING FOR COLLABORATIVE FILTERING. ICML, 2016.
许多协作过滤（CF）算法是基于项目的，因为它们分析项目 - 项目关系以产生项目相似性。最近，自然语言处理领域的一些工作提出使用神经嵌入算法学习单词的潜在表示。其中，带有负抽样的Skip-gram（SGNS），也称为Word2Vec，被证明可以产生各种文本任务的最好结果。在本文中，我们表明基于项目的CF可以在相同的神经词嵌入框架中进行转换。受SGNS的启发，我们描述了一种方法，我们为基于项目的CF命名Item2Vec，为潜在空间中的项目生成嵌入。即使用户信息不可用，该方法也能够推断项目间关系。我们在大型数据集上展示实验结果，证明了Item2Vec方法的有效性，并证明它可以与SVD竞争。
在item2vec中，将商品等价于word2vec中的word，则出现在同一集合（同一用户购买）的item则视为正例。对于集合 $w_1,w_2,...,w_k$ 目标函数定义为
$L=\frac{1}{K}\sum^K_{i=1}\sum^K_{j\neq i}log p(w_j|w_i)$
利用负采样，
$p(w_j|w_i)=\sigma(u_i^Tv_j)\prod_{k=1}^N\sigma(-u_i^Tv_k)$
采用SGD方法训练，得到每个item对应的embedding representation。

Hongwei et al. DKN: Deep Knowledge-Aware Network for News Recommendation. WWW, 2018.
推荐系统最初是为了解决互联网信息过载的问题，帮助用户针推荐其感兴趣的内容并给出个性化的建议。新闻的推荐有三个要解决的突出问题：

不同于电影，餐馆等产品的推荐，新闻文章具有高度的时间敏感性，它们的相关性很快就会在短时间内失效。过时的新闻经常被较新的新闻所取代。导致传统的基于ID的协同过滤算法失效。
用户在阅读新闻的时候是带有明显的倾向性的，一般一个用户阅读过的文章会属于某些特定的主题，如何利用用户的阅读历史记录去预测其对于候选文章的兴趣是新闻推荐系统的关键。
新闻类文章的语言都是高度浓缩的，包含了大量的知识实体与常识。用户极有可能选择阅读与曾经看过的文章具有紧密的知识层面的关联的文章。

以往的模型只停留在衡量新闻的语义和词共现层面的关联上，本文在考虑语义的基础上，创造性地提出加入新闻之间知识层面的相似度量，来给用户更精确地推荐可能感兴趣的新闻。

本文提出了一种将 知识图谱 实体嵌入表示与 神经网络 融合起来，进行新闻推荐的模型DKN。一般来说，新闻文本的特点是语言高度浓缩，并且包含有很多知识实体与常识。但是以往的模型却较少考虑新闻包含的外部知识，仅仅从 语义层面 (semantic level)进行表示学习，没有充分挖掘新闻文本在 知识层面 (knowledge level)的联系。此外，新闻具有很强的时效性，一个好的新闻推荐算法应该能随用户的兴趣的改变做出相应的变化。为解决上述问题，本文提出了DKN模型。首先使用一种 融合了知识的卷积神经网络 KCNN(knowledge-aware convolutional neural network)，将新闻的语义表示与知识表示融合起来形成新的embedding表示，再建立从用户的新闻点击历史到候选新闻的attention机制，选出得分较高的新闻推荐给用户。并且在真实的线上新闻数据集上做了大量的实验，实验结果表示，DKN模型在F1-score，AUC等指标上超过了现有的state-of-art模型。

Guanjie et al. DRN: A Deep Reinforcement Learning Framework for News Recommendation. WWW, 2018.
本文提出了一种新的新闻推荐深度强化学习框架。由于新闻特性和用户偏好的动态性，在线个性化新闻推荐是一个极具挑战性的问题。虽然有人提出了一些在线推荐模型来解决新闻推荐的动态性，但这些方法存在三个主要问题。

他们只尝试模拟当前的奖励(例如，点击率)。
很少有研究考虑使用点击/不点击标签以外的用户反馈(例如，用户返回的频率)来帮助改进推荐。
这些方法倾向于不断向用户推荐类似的新闻，这可能会让用户感到无聊。

本文创新之处:

提出了一个基于深度Q-Learning的推荐框架，该框架可以明确地建模未来的奖励。
进一步考虑用户返回模式作为点击/不点击标签的补充，以获取更多的用户反馈信息。
此外，还加入了有效的探索策略，为用户寻找新的有吸引力的新闻。

John et al. Modeling and Simultaneously Removing Bias via Adversarial Neural Networks. arXiv, 2018.
已经有几篇关于消除CTR预估中位置偏置信息的介绍，如华为的PAL、youtube的shallow tower、以及将位置信息作为输入特征的方法。但对于样本中可能存在的偏置信息，上述的方法都没有解决，而本文提出的对抗学习框架，不仅解决了一般的位置偏置，还能够消除样本特征中的偏置信息。

Chen et al. Privileged Features Distillation at Taobao Recommendations. KDD, 2020.
特征在电商推荐预测中的作用非常重要。为了保证离线训练和线上服务的一致性，通常利用离在线都可以获取到的相同的特征。但是，这种一致性忽略了一些判别性特征。比如，预估转化率，即用户点击某个商品的前提下，该用户购买该商品的可能性时，商品详情页的停留时长特征比较重要。
但是，线上排序时，转化率预估需要在点击发生之前产出。因此，线上服务时，无法获取这种事后特征。作者们将判别性特征，但是只有训练的时候可以获取的特征定义为特权特征。
受蒸馏技巧的启发，这种技巧可以缩小训练和线上推理的差距，这篇文章提出特权特征蒸馏，PFD。这种方法训练两个模型，即学生模型跟原始模型一致，老师模型会额外利用特权特征。从更加精准的老师模型蒸馏得到的知识迁移到学生模型中，这有助于提升预测精度。线上推理时，只提取学生模型，这种模型不依赖特权特征。
作者们在两个淘宝推荐中的基础预测任务进行了实验，即粗排点击率预估以及精排中的转化率预估。通过将交互特征进行蒸馏，针对点击率预估，蒸馏特征是线上服务无法获取的特征，针对转化率预估，蒸馏特征是事后特征，作者们相对基础版本取得了显著提升的效果。
线上ab实验中，点击率指标提升了5%，转化率指标提升了2.3%。另外，通过解决训练PFD中的若干问题，其训练速度跟没有蒸馏的基础版本基本相当。

Hongwei et al. RippleNet: Propagating User Preferences on the Knowledge Graph for Recommender Systems. CIKM, 2018.
RippleNet与前人工作的差异：

（1）RippleNet通过偏好传播方法，很自然地将KGE方法融入到推荐系统中；

（2）RippleNet可以从用户历史的item中，发现用户到候选item的可能路径，不需要任何手工设计；

RippleNet 的贡献 ：

（1）首次将基于embedding-based和path-based的方法结合到基于知识图谱的推荐系统中；

（2）提出了RippleNet模型，这是一个利用知识图谱实现推荐系统的端到端框架，RippleNet通过在KG中偏好传播的方法，不断自动的发现用户的潜在的层级兴趣；

（3）对三个真实世界的推荐场景（电影、图书、新闻）进行了实验，结果证明RippleNet在几个最好的基线上都是有提高的。

Jianxun et al. xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems. KDD, 2018.
本文是对DCN的改进。

xDeepFM将 基于Field的vector-wise 思想引入Cross，并且保留了Cross的优势，实验效果也提升明显。极深的意义就在于xDeepFm就真正做到了FM高阶交叉后的”Deep” Factorization Machine。
xDeepFM的时间复杂度较高，未来能持续改进它的性能，才能被应用在大规模计算任务中（工业界落地）。

Zhongxia et al. Co-Attentive Multi-Task Learning for Explainable Recommendation. IJCAI, 2019.
提供推荐的解释可增强用户的信任和可解释性，本篇文章提出互注意力可解释性推荐模型，利用推荐和解释任务之间的相关性提升两者的性能，具体作者仿照人类处理信息的方式涉及了编码选择解码三段式结构，在选择阶段使用的层级的互注意力选择器有效的建模两个任务的跨知识迁移，实验证明模型不仅提升了推荐预测的准确率同时可以生成流畅有用个性化的推荐解释。
传统多任务的缺点：
多任务：共享user item embedding 的时候并不能达到很好的解释效果（不能包含物品特定的信息）
造成该结果有两个原因：1）共享的表示不可解释就很难提供对于解释任务的显示限制
2）用户物品的embedding不能包含充分的深度用户-物品交互信息
本篇文章作者在选择器利用互注意力选择重要的评论和概念用于解释任务，使用了用户-物品的交互信息

Chuhan et al. Neural News Recommendation with Attentive Multi-View Learning. IJCAI, 2019.
现有的新闻推荐系统通常只根据一种信息如标题来进行推荐。
=>使用多种信息来进行推荐。
=>新闻编码器+用户解码器。
=>新闻编码器是一个基于attention的multi-view学习模型，可以学习多种新闻表示形式（如标题、正文、主题分类等）。用户解码器是利用attention机制根据用户的浏览记录学习用户的表示。

Le et al. Personalized Multimedia Item and Key Frame Recommendation. IJCAI, 2019.
在向用户推荐或广告项目时，一个新兴的趋势是用关键帧图像(如电影海报)来呈现每个多媒体项目。由于每个多媒体项可以表示为多个细粒度的视觉图像(如电影的相关图像)，因此在这些应用中需要个性化的关键帧推荐，以吸引用户独特的视觉偏好。然而，以往的个性化关键帧推荐模型依赖于用户对多媒体项目的细粒度图像行为(如用户-图像交互行为)，这在实际场景中往往是无效的。本文研究了在缺乏细粒度用户图像行为的情况下，联合多媒体项目和关键帧推荐的一般问题。我们认为，这个问题的关键挑战在于发现用户的视觉配置文件用于关键帧推荐，因为如果没有用户的细粒度图像行为，大多数推荐模型都会失败。为了应对这一挑战，我们利用用户的道具行为，将用户(道具)放入两个潜在空间:协作潜在空间和视觉潜在空间。我们进一步设计了一个模型来识别用户的协作和视觉维度，并模拟用户如何从这两个空间做出决定性的道具偏好。因此，学习到的用户视觉配置文件可以直接应用于关键帧推荐。最后，在实际数据集上的实验结果表明，该模型在两个推荐任务上的有效性。

Fuyu et al. SDM: Sequential Deep Matching Model for Online Large-scale Recommender System. CIKM, 2019.
准确的捕捉用户偏好是大规模推荐系统的根基。目前在工业界中基于物品的协同过滤算放被广泛应用于召回。然而，这种方法无法有效的对用户动态的不断变化的偏好建模。因此，本文提出了一种新的模型，深度序列召回（sequential deep matching）模型，该模型对用户短期会话（short-term sessions）和长期行为（long-term behaviors）建模，来捕捉用户动态偏好。与现存的序列感知（sequence-aware）推荐模型相比，我们解决了一下两个本质问题：

在一个会话中可能存在用户多种兴趣倾向
长期偏好无法有效的与当前会话兴趣融合。长期偏好具有多样性和复杂性，因此这些与短期会话高度相关的特征应该被保留，用于融合。

我们提出了两个相应的组件来对用户行为序列建模：

multi-head self-attention module ：其用于捕捉多种类型的特征
long-short term gated fusion module：其用户融合长短期特征

然后使用用户序列行为向量和物品向量来进行召回，使用的是KNN算法。在真实数据集的离线实验中，SDM表现优异。此外，SDM已经成功部署在淘宝大规模在线推荐系统中，并且在一系列商业指标上取得了提升。

Shu et al. Session-Based Recommendation with Graph Neural Networks. AAAI, 2019.
作者提出SR-GNN,将session序列建模为图结构数据。在session图的基础上，GNN可以捕捉到items的复杂转换。每一个session利用注意力机制将整体偏好与当前偏好结合进行表示。

作者否定了：

基于马尔可夫链的工作非常依赖数据独立性的假设的。
利用RNN的基于session 的推荐系统，NARM（global and local RNN recommender），STAMP（captures users’ general interests and current interests, by employing simple MLP networks and an attentive net）等缺少合适的用户表现就无法很好产生用户表征，忽视了items之间转换时的上下文。
同时指出GNN能很好地生成items嵌入向量，以此来说明提出的SR-GNN更好。

主要贡献：

将session序列建模成图结构数据，以使用GNN来提取item的嵌入向量
不依赖于用户的相关表征，使用session的嵌入层来进行推荐

Le et al. SocialGCN: An Efficient Graph Convolutional Network based Model for Social Recommendation. arXiv, 2019.
大多数的社交推荐模型利用用户局部邻居（应该指的是直接信任的用户）的偏好去缓解数据稀疏性的问题。然而，他们只考虑了每个用户的局部邻居，忽略了用户偏好受信息在社交网络传播的影响过程。近年来，图卷积网络(GCN)利用图结构和节点特征信息对图中的信息扩散过程进行建模，取得了良好的效果。
为此，本文提出了一种有效的基于图卷积神经网络的社会推荐模型。基于一个经典的CF模型，我们提出的模型的核心思想是利用GCNs的优势来捕捉用户的偏好如何受到社交网络中社交扩散过程的影响。用户偏好的扩散建立在分层扩散的基础上，初始化用户嵌入由当前用户特征和不包含用户特征的潜在向量进行函数处理得到的，初始化项嵌入也类似。

Netflix

Balazs et al. Session-based recommendations with recurrent neural networks. ICLR, 2016.
本文是最大贡献在于第一次将RNN使用到Session-based Recommendation中。
作者将用户的行为作为看做是序列问题，有效的将时间信息添加到网络中，在传统的两类推荐方法中——基于内容的推荐算法和协同过滤推荐算法（model-based、memory-based）在刻画序列数据中存在缺陷：每个item相互独立，不能建模item的连续偏好信息，缺失了整个序列的休息。
而本文的方法恰好运用到真个序列的信息，不仅关注最近几次的用户行为，并全面考虑到前面信息对后面信息的影响。同时随着状态的跳转，基于RNN的序列建模克服了马尔科夫决策过程中维度爆炸的问题，总体上来看这是一个属于Seq2Seq的预测问题

Sina

Junlin et al. FAT-DeepFFM: Field Attentive Deep Field-aware Factorization Machine. arXiv, 2019.
熟悉推荐系统中CTR预估的人对于这方面模型的演化应该如数家珍，以FM系列的模型来说，比较著名的包括：FM、AFM、NFM、DeepFM、FFM、HOFM等，都是基于FM进行的改进。前一篇文章中介绍的FwFM基于FFM进行了改进，而今天介绍的这一篇文章将DeepFM和FFM进行了结合，同时使用了CV中的SENET网络结构，提出了Field Attentive Deep Field-aware Factorization Machine，简称FAT-DeepFFM。

Tencent

Qitian et al. Dual graph attention networks for deep latent representation of multifaceted social effects in recommender systems. WWW, 2019.
社交推荐在传统协同过滤方法上利用社交信息去解决数据稀疏和冷启动的问题，然而，大多数存在的模型假设社交影响来自静态的用户朋友和恒定的权值或固定的约束之下。

为了减轻这种强烈的假设，在这篇论文中提出对偶图注意力网络去协作学习双层社交效应的特征表示，其中一个由用户特定的注意力权重建模，另一个由动态的、上下文感知的注意力权重建模。

又将用户领域的社会影响扩展到项目领域，这样就可以利用相关项目中的信息来进一步缓解数据稀疏性问题。此外，考虑到两个领域中不同的社会效应可以相互影响并共同影响用户对商品的偏好，提出了一种基于策略的新型融合策略，该策略基于上下文 multi-armed bandit 来权衡各种社交活动的交互作用。

在一个基准数据集和一个商业数据集上进行的实验验证了我们模型中关键组件的有效性。结果表明，与其他最新的社会推荐方法相比，模型在推荐准确性上有了很大的提高。