工业界推荐_Industrial RS(1)

Industrial RS（工业界推荐）

Airbnb

Mihajlo et al. Real-time Personalization using Embeddings for Search Ranking at Airbnb. KDD.2018.
这是一篇KDD2018的Best Paper，应该是在应用方面的最佳论文而不是创新方面的最佳论文，因为该论文本质上没有做出多大的创新，利用的核心技术是skip-gram model（word2vec），你会发现其实是一回事。但这是一篇实践性很强的文章，非常适合相关领域的算法工程师去阅读。

Alibaba

Kun et al. Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction. arXiv, 2017.
这篇论文更偏向于理论。首先介绍了传统的解决方案和局限性：
（1）LR（逻辑回归）不能捕捉非线性
（2）GBDT+LR（梯度提升决策树+逻辑回归）虽然能够产生非线性特征组合，但是树模型不适用于超高维稀疏数据
（3）FM（因子分解机）利用二阶信息来产生变量之间的相关性，但是无法适应多阶模式。

这篇论文采用divide-and-conquer策略，将特征空间分割成若干个子区域，在每个区域采用线性模型，最后用weighted linear predictions组合结果，LS-PLM存在三个优势：Nonlinearity（源于子区域的划分）、Scalability（与LR相似，可并行）、Sparsity（用L1和L2)。
论文基于directional derivatives（方向导数）和quasi-Newton（拟牛顿）方法来解决因为正则项使得目标函数非凸的问题。

Zhibo et al. Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba. KDD, 2018.
阿里其实也基于GraphSAGE做过相关工作（或许GraphSAGE在工业落地上是最有优势的了），发自KDD 2018。为了解决在推荐系统中的老三样困难：可扩展性，稀疏性和冷启动。所以提出了：

可以根据用户的历史行为来构建商品图（根据用户的一些点击记录，依照连续点击应该存在关系，可以构造出item graph），并学习图中所有商品的嵌入（如图c的带权随机游走采样，用deepwalk思想基于skip-gram训练embedding）。这一步就是作者描述的Base Graph Embedding（BGE）。
为了减轻稀疏性和冷启动问题，将边信息合并到图嵌入框架中。即增加商品的属性，如品牌，价格等。然后就升级成了Graph Embedding with Side information (GES)，并且对不同的side Information加权得到Enhanced Graph Embedding with Side information (EGES)。

Guorui et al. Deep Interest Evolution Network for Click-Through Rate Prediction. AAAI, 2019.
作者提出了一个新模型—Deep Interest Evolution Network (DIEN)。该模型的创新有两个关键点：

兴趣提取器层（interest extractor layer）：首先DIEN选择GRU来建模两行为之间的依赖性。其次由于隐藏状态缺乏对兴趣表示的监督，作者提出了 辅助损失 ，即 使用下一个行为来监督当前隐藏状态的学习 。作者把这些有额外监督的隐藏状态称为【兴趣状态】，有助于捕获更多的语义意义用于兴趣表示，推动GRU的隐藏状态，从而有效地表示兴趣。
兴趣演化层（interest evolving layer）：兴趣的多样性会导致兴趣偏移的现象。在相邻的访问中，用户的意图可能非常不同，用户的一个行为可能依赖于很久以前的行为。因此，作者提出 建立与目标物相关的兴趣演化轨迹模型 ，设计了带有注意力机制更新门的GRU—AUGRU。 运用兴趣状态和目标物体去计算相关性 。AUGRU增强了在兴趣演化中相关兴趣的影响，同时削弱了兴趣漂移所产生的非相关兴趣效应。通过在更新门中引入注意机制，AUGRU可以实现针对不同目标物体的特定兴趣演化过程.

主要贡献

提出一个新的网络结构来对兴趣演化过程进行建模。兴趣表示更具有表达姓，CTR预估更精确。
设计了一个兴趣提取层。指出GRU对兴趣表示的针对性弱，故提出辅助损失。
设计了一个兴趣演化层，AUGRU增强了相关兴趣对目标物体的影响。

Guorui et al. Deep Interest Network for Click-Through Rate Prediction. KDD, 2018.
这篇文章由阿里出品，中心思想就是在用户的user behavior中加入了目标ad 参与计算注意力，完成预测的推荐算法。除此以外，该文还有两个创新点是：

针对稀疏数据提出的MBA正则化 —— mini-batch aware regularization；
针对批数据处理提出的激活函数 —— pReLU / Dice。

Xiao et al. Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate. SIGIR, 2018.
这篇论文充分利用了用户行为序列，我们提出了一个新的方法叫 Entire Space Multi-task Model(ESMM)，可以同时缓解SSB和DS问题，ESMM并不是直接预测pCVR，而是由两个任务组成分别输出pCTR和pCVR，利用一个辅助任务，将pCVR作为中间变量输出，真正预测的值是pCTCVR，其中pCTCVR = pCTR * pCVR，因为pCTR和pCTCVR都是利用全空间曝光样本来估计，因此pCVR也是由全空间样本得到的，那么SSB（样本选择偏差）问题就缓解了。除此之外，CVR网络的特征表征参数和CTR网络是共享的，后者有更丰富的训练样本，这种参数迁移学习也缓解了DS（数据稀疏）问题。

Han et al. Learning Tree-based Deep Model for Recommender Systems. KDD, 2018.
这篇论文讨论的是推荐系统中的召回模型。在召回阶段，面对海量商品，针对用户做个性化推荐时，往往需要在效果和效率之间做权衡。以往的召回模型中，为了提高计算效率，往往采用类似矩阵分解的方式，分别计算user-vector和item-vector，然后把两个向量点积的结果或者向量间的距离作为该user-item pair的打分。如此，相当于把user和item映射到了同一空间中，我们可以提前生成好user-vector和item-vector，在inference阶段，可以利用KNN等方式很快地寻求最优解。然而，我们知道，在CTR任务中，特征的交互信息起到了重要的作用，而这种点积的方式大大地限制了模型的能力。把召回任务看作一个多分类问题，类别数目就是商品的总数。
论文提出了一种树搜索的方式，把推荐问题转化成一系列层级化多分类的问题，从粗到细，如此每一层的类别就大大减少了，如此大大减少了比较的次数，降低计算量。同时，这样模型就可以考虑更多user-item的交互和更复杂的结构。

Lin et al. Visualizing and Understanding Deep Neural Networks in CTR Prediction. SIGIR, 2018.
在这篇文章中提出了来可视化和理解在商业中扮有重要角色的CTR预测深度神经网络。在线上的广告系统的数据进行实验，这些数据每天都有不同的分布。为了了解模型的机制和效果，在神经元水平上探测模型的内部状态。此外，这篇文章还实现了一种探测方法来测试模型的每个网络层的效果。并且基于反向传播算法来计算每个输入特征的显著性得分以衡量每个输入特征的影响力。文中还讨论了在理解、监控、诊断和优化模型等方面的实际应用。

Qiwei et al. Behavior Sequence Transformer for E-commerce Recommendation in Alibaba. KDD,2019.
Transformer 的主要优点是，通过 self-attention 机制能更好地捕获句子中单词之间的依赖性。直观地说，用户行为序列中 item 之间的“依赖关系”可以通过 Transformer 抽取。（self-attention 学习 item 间的依赖关系，对比 Target Attention attention 捕获目标 item 和先前点击的 item 之间的相似性）；
因此，作者提出了在淘宝电商推荐中的用户行为序列 Transformer（BST）。离线实验和在线 A/B 测试表明，BST 与现有方法相比有明显优势。目前 BST 已经部署在淘宝推荐的 rank 阶段，每天为数亿消费者提供推荐服务。
该论文从理论创新上略显不足，但确是扎扎实实的工业级序列处理做法，其采用 self-attention 建模用户行为序列特征的处理方式在工业界得到了广泛应用；

Wentao et al. Click-Through Rate Prediction with the User Memory Network. KDD, 2019
这篇文章仅关注不考虑行为信息的DNN模型，以及使用RNN来处理行为信息的方式上。DNN模型部署简单，而RNN模型可以融入行为信息，提升预测效果，但同时也带来了性能的问题。在兼顾DNN和RNN模型的优点的基础上，本文提出了记忆增强网络—MA-DNN模型。

Yufei et al. Deep Session Interest Network for Click-Through Rate Prediction. arXiv, 2019.
比起DIEN中对User Behaviors 部分分了三层去处理，在DSIN(也就是这篇文章)中有四层！第一层是Session Division Layer，第二层是Session Interest Extractor Layer，第三层是Session Interest Interacting Layer，第四层是Session Interest Activating Layer。先来说Session是什么，我们注意到用户的兴趣很广泛，但在一个较短的时间内还是比较专注的，兴趣会聚焦于一点，我们就把这较短的时间段称为一个Session,比起DIN和DIEN把行为序列全打包到一起，在DSIN中把行为序列划成一个个Session再分别处理会更符合我们的直觉。第一层的Session Division Layer就是把行为序列划成一个个Session，通常把间隔30分钟以上的不同行为item划归成不同的Session,第二层的Session Interest Extractor Layer就是提取出每个Session的兴趣，毕竟我们刚才说了在每个Session中用户的兴趣通常会聚焦于一点。每个Session中兴趣聚焦于一点，不同的Session之间兴趣聚焦于不同的点上，但如同DIEN所说，兴趣的转变总有个较为自然的转变过程，第三层的Session Interest Interacting Layer就是捕捉Session间兴趣演化的过程。一如DIN，DIEN中所说，用户的兴趣总是广泛的，我们要推荐给用户的item总是只能对应用户的一部分兴趣，所以需要使用attention mechanism 提取出用户兴趣中与要推荐的item相关联的部分，第四层即是Session Interest Activating Layer。对用户行为特征处理完后再与其它平平无奇的特征拼接完后就可以送入全链接网络进行训练了。

Wentao et al. Deep Spatio-Temporal Neural Networks for Click-Through Rate Prediction. KDD, 2019.
创新点：
1、目前构建的特征都是围绕当前ad构建的各种维度的特征，本文在此基础上引入了auxiliary ad的相关特征，包括上下文ad，用户点击过的ad和用户未点击的ad
2、引入self attention和interact attention机制
3、给出了较为完整的线上架构设计方案

Han et al. Joint Optimization of Tree-based Index and Deep Model for Recommender Systems. NIPS, 2019.
在上面的一篇文章中我们介绍了TDM，TDM提出了一种全新的类似最大堆的树形索引结构，基于兴趣建模和beamsearch检索算法，可以支持利用任意复杂评分标准（不再限定于内积形式）从海量数据集（甚至是全库商品）中检索出用户感兴趣的Top-K商品。但是TDM也存在相应的缺点和不足：模型的优化和树形索引结构的学习的优化目标是独立的，分别按各自的优化目标去优化可能导致最终的结果不是最优的，同时树形索引结构学习的好坏会直接影响最终的检索结果该文章是对TDM工作的延续。
为了解决TDM存在的问题，文章提出了一种统一目标的模型、索引、检索联合优化的JTM算法，使得整体检索效果达到最优。

Chao et al. Multi-Interest Network with Dynamic Routing for Recommendation at Tmall. CIKM, 2019.

主要以前用一个向量来表示用户，但是用户往往兴趣是多样的，所以这里会用多个向量来表示用户的多个兴趣，这个重点是设计了一个提取用户多兴趣向量层，主要是基于胶囊路由机制的方法。
特点是把用户历史行为聚类与提取用户不同的兴趣点。
DIN可以识别用户多兴趣，但是不适合做召回，因为计算量太多，适合做排序阶段。

Qi et al. Practice on Long Sequential User Behavior Modeling for Click-Through Rate Prediction. KDD, 2019.
当前的计算力的红利，从DNN => DIN => DIEN模型越来越复杂，带来的模型效果会越好，这一时期一直到2018年年底，工业界的很多人会越来越感到计算力红利差不多到了一个瓶颈，因为由于硬件本身技术的限制，模型的复杂度被限制在了一个瓶颈下，再提升模型的复杂度，可能就没法到达工业界要求的响应时延。再往后看，在硬件技术无法取得突破性进步之前（硬件技术的本质突破是很难在短时间内完成的），恐怕单纯的提高模型复杂度已经走不通了。那么在下一个硬件技术期突破来临之前，当下的最可能能够进一步提升系统效果的思路就是：算法和架构的co-design。
因此作者比较初步但是有效的实现，提出了名为：UIC(user interest center) Server的一种结构。其实这个UIC里面就存储了每一个用户的点击行为序列信息，不过这个信息是经过了编码压缩之后的，不是原始的、直接的点击序列样式。这样，在进行traffic request响应的时候，系统直接去UIC去取之前算好的用户行为序列表征，即解耦用户兴趣建模和CTR预估。而从图中也可以非常清楚的看出，这个UIC是当每次用户有行为的时候进行更新，而不是traffic request的时候一起算。这里我要说明一下，这篇paper的应用场景是手机淘宝打开的时候的定向广告推荐，这在paper里叫做traffic request，而用户打开手机淘宝后，会对一些商品有点击、购买等行为，这个叫做realtime user behavior。不难看出这个UIC的结构是非常重要的，也是本文最大的创新点。
从整个系统的运行角度来说，UIC的在线步骤和预测模块的在线部分是独立的，论文里称UIC为“latency free for realtime”，即UIC是伴随用户每次点击商品就会及时更新用户状态，而预测模块在用户发起traffic request的时候，直接去UIC里取计算好的用户行为状态。
为了从用户超长的点击序列（通常在1000以上）中全面、准确地压缩抽取出用户的多样化的兴趣，paper作者基于memory network的思想提出了一种称之为“multi-channel memory network”的架构，示意图如下所示：
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-i6evcW2E-1647688178406)(upload://t053NntNx6GpzRUIw2ETwP5teAo.png)]

Industrial RS

Airbnb

Alibaba

可以根据用户的历史行为来构建商品图（根据用户的一些点击记录，依照连续点击应该存在关系，可以构造出item graph），并学习图中所有商品的嵌入（如图c的带权随机游走采样，用deepwalk思想基于skip-gram训练embedding）。这一步就是作者描述的Base Graph Embedding（BGE）。
为了减轻稀疏性和冷启动问题，将边信息合并到图嵌入框架中。即增加商品的属性，如品牌，价格等。然后就升级成了Graph Embedding with Side information (GES)，并且对不同的side Information加权得到Enhanced Graph Embedding with Side information (EGES)。

兴趣提取器层（interest extractor layer）：首先DIEN选择GRU来建模两行为之间的依赖性。其次由于隐藏状态缺乏对兴趣表示的监督，作者提出了 辅助损失 ，即 使用下一个行为来监督当前隐藏状态的学习 。作者把这些有额外监督的隐藏状态称为【兴趣状态】，有助于捕获更多的语义意义用于兴趣表示，推动GRU的隐藏状态，从而有效地表示兴趣。
兴趣演化层（interest evolving layer）：兴趣的多样性会导致兴趣偏移的现象。在相邻的访问中，用户的意图可能非常不同，用户的一个行为可能依赖于很久以前的行为。因此，作者提出 建立与目标物相关的兴趣演化轨迹模型 ，设计了带有注意力机制更新门的GRU—AUGRU。 运用兴趣状态和目标物体去计算相关性 。AUGRU增强了在兴趣演化中相关兴趣的影响，同时削弱了兴趣漂移所产生的非相关兴趣效应。通过在更新门中引入注意机制，AUGRU可以实现针对不同目标物体的特定兴趣演化过程.

主要贡献

提出一个新的网络结构来对兴趣演化过程进行建模。兴趣表示更具有表达姓，CTR预估更精确。
设计了一个兴趣提取层。指出GRU对兴趣表示的针对性弱，故提出辅助损失。
设计了一个兴趣演化层，AUGRU增强了相关兴趣对目标物体的影响。

针对稀疏数据提出的MBA正则化 —— mini-batch aware regularization；
针对批数据处理提出的激活函数 —— pReLU / Dice。

Chao et al. Multi-Interest Network with Dynamic Routing for Recommendation at Tmall. CIKM, 2019.

主要以前用一个向量来表示用户，但是用户往往兴趣是多样的，所以这里会用多个向量来表示用户的多个兴趣，这个重点是设计了一个提取用户多兴趣向量层，主要是基于胶囊路由机制的方法。
特点是把用户历史行为聚类与提取用户不同的兴趣点。
DIN可以识别用户多兴趣，但是不适合做召回，因为计算量太多，适合做排序阶段。

Qi et al. Practice on Long Sequential User Behavior Modeling for Click-Through Rate Prediction. KDD, 2019.
当前的计算力的红利，从DNN => DIN => DIEN模型越来越复杂，带来的模型效果会越好，这一时期一直到2018年年底，工业界的很多人会越来越感到计算力红利差不多到了一个瓶颈，因为由于硬件本身技术的限制，模型的复杂度被限制在了一个瓶颈下，再提升模型的复杂度，可能就没法到达工业界要求的响应时延。再往后看，在硬件技术无法取得突破性进步之前（硬件技术的本质突破是很难在短时间内完成的），恐怕单纯的提高模型复杂度已经走不通了。那么在下一个硬件技术期突破来临之前，当下的最可能能够进一步提升系统效果的思路就是：算法和架构的co-design。
因此作者比较初步但是有效的实现，提出了名为：UIC(user interest center) Server的一种结构。其实这个UIC里面就存储了每一个用户的点击行为序列信息，不过这个信息是经过了编码压缩之后的，不是原始的、直接的点击序列样式。这样，在进行traffic request响应的时候，系统直接去UIC去取之前算好的用户行为序列表征，即解耦用户兴趣建模和CTR预估。而从图中也可以非常清楚的看出，这个UIC是当每次用户有行为的时候进行更新，而不是traffic request的时候一起算。这里我要说明一下，这篇paper的应用场景是手机淘宝打开的时候的定向广告推荐，这在paper里叫做traffic request，而用户打开手机淘宝后，会对一些商品有点击、购买等行为，这个叫做realtime user behavior。不难看出这个UIC的结构是非常重要的，也是本文最大的创新点。
从整个系统的运行角度来说，UIC的在线步骤和预测模块的在线部分是独立的，论文里称UIC为“latency free for realtime”，即UIC是伴随用户每次点击商品就会及时更新用户状态，而预测模块在用户发起traffic request的时候，直接去UIC里取计算好的用户行为状态。
为了从用户超长的点击序列（通常在1000以上）中全面、准确地压缩抽取出用户的多样化的兴趣，paper作者基于memory network的思想提出了一种称之为“multi-channel memory network”的架构，示意图如下所示：
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uSq6aYdz-1647688178408)(upload://t053NntNx6GpzRUIw2ETwP5teAo.png)]
因为每个用户的点击序列可以反映出其多样化的兴趣爱好，也就是说一个序列在一个人多种的兴趣爱好之下下产生的，“multi-channel memory network”可以根据用户的点击序列，来自动的对其中每一个channel network的参数进行跟新，从而达到了对用户行为序列信息进行存储于压缩，原来长度超过1000的行为信息，被压缩到了固定长度的多channel的memory network，需要注意的是每一个用户会对应于一个独有的memory network，不同用户之间的memory network是不共享的。