Q&R: A Two-Stage Approach toward Interactive Recommendation

ABSTRACT

Recommendation systems, prevalent in many applications, aim to surface to users the right content at the right time. Recently, researchers have aspired to develop conversational systems that offer seamless interactions with users, more effectively eliciting user preferences and offering better recommendations.
在许多应用程序中流行的推荐系统，旨在在正确的时间向用户显示正确的内容。最近，研究人员渴望开发与用户无缝交互的对话系统，更有效地激发用户偏好并提供更好的推荐。
Taking a step towards this goal, this paper explores the two stages of a single round of conversation with a user: which question to ask the user, and how to use their feedback to respond with a more accurate recommendation. Following these two stages, first, we detail an RNN-based model for generating topics a user might be interested in, and then extend a state-of-the-art RNN-based video recommender to incorporate the user’s selected topic. We describe our proposed system Q&R, i.e., Question & Recommendation, and the surrogate tasks we utilize to bootstrap data for training our models. We evaluate different components of Q&R on live traffic in various applications within YouTube: User Onboarding, Homepage Recommendation, and Notifications. Our results demonstrate
that our approach improves upon state-of-the-art recommendation models, including RNNs, and makes these applications more useful, such as a > 1% increase in video notifications opened. Further, our design choices can be useful to practitioners wanting to transition to more conversational recommendation systems.
为了实现这一目标，本文探索了与用户进行单轮对话的两个阶段:向用户询问哪些问题，以及如何利用用户的反馈做出更准确的推荐。在这两个阶段之后，首先，我们详细介绍了一个基于RNN的模型，用于生成用户可能感兴趣的主题，然后扩展了一个先进的基于rnn的视频推荐，以纳入用户选择的主题。我们描述我们提出的系统Q&R，即,Question & Recommendation的问题,以及我们用来引导数据以训练模型的代理任务。我们评估YouTube内部不同应用程序中实时流量的Q&R的不同组成部分:用户登录、主页推荐和通知。我们的结果表明，我们的方法改进了最先进的推荐模型，包括RNNs，并使这些应用程序更有用，如打开的视频通知增加>1%。此外，我们的设计选择对于想要转换到更具对话性的推荐系统的从业者是有用的。

1 INTRODUCTION

推荐系统在帮助用户在大量可用信息中进行导航时发挥着关键作用，通过为他们选择正确的项目，即。产品购买，内容阅读，视频观看，在正确的时间[3]。
最近，推荐研究者和实践者都渴望通过构建会话式推荐器来推进推荐的前沿，以创造与用户的无缝交互。这样的系统可以更好地模拟真实人们给的建议—他们试图通过在特定上下文中询问几个问题来快速理解用户偏好，然后根据响应[12]给出建议。它们应该预测用户潜在的发展中、未明确表达的兴趣，同时考虑到用户可能对世界[42]有偏见这一事实。他们的目标是通过展示有趣的内容来帮助获得新用户，并保留现有的用户基础; 任何推荐系统的双重目标都是可持续的。
最近，这个看似遥不可及的目标开始变得更加切实可行。为了实现这一目标，主要有两项工作。一方面,大量的个人助理已经开始出现在跨域的各种各样的产品,从健康娱乐或零售机器人虚拟助手[38，4,22],这样的系统是由最近的进步自然语言理解[44],专注于谈话,而不是推荐。另一方面，会话式推荐器在实现推荐的同时，关注的是如何平衡推荐系统中存在的探索和开发的权衡[12,47]。
我们的工作为工业会话推荐者提供了一种新的观点。我们认为，要想过渡到真正的交互式推荐系统，我们需要从这两个角度出发的组件。我们的系统由两个部分组成:一个问题询问组件和一个项目推荐组件，它遵循了一轮用户系统对话的两个主要阶段。此外，我们需要解决如何引导这样的系统，当用户和系统对话之间缺乏数据时。
为此，我们利用从传统推荐器中选择的代理任务中获得的数据，并基于这些数据引导系统的组件。其结果是一种新型的大规模学习交互式推荐器Q&R。 Question & Recommendation.。这是迄今为止我们所知道的第一个对这种系统的详细公开描述。
从建模的角度来看，我们将会话推荐定义为分解出用户决策的组件。这种方法允许用户在中间状态给出反馈，并通常改进建议。此外，我们使用顺序RNN模型来捕捉对话中出现的“下一步”设置，并通过询问用户话题问题进行干预，让他们更好地表达自己的偏好并控制个性化体验。我们展示了我们在全球最大视频平台YouTube上的发展[13,15];然而，我们的方法本身并不是针对视频推荐的。特别是有四大贡献：

我们对大规模学习型交互式推荐系统Q&R进行了详细的描述，该系统向用户询问有关主题的问题并给出项目推荐(第3节)。
为了克服缺少会话数据的挑战，我们讨论了如何利用代理任务从非会话推荐器使用大规模数据引导会话(第4节)。
基于RNN的双因素推荐:我们在两阶段(“问什么?”“如何回应?”)的背景下为交互推荐建模，并提出了新的基于神经网络的RNN模型用于双因素推荐(第5节)。
YouTube上的实时流量结果:我们发现Q&R可以在YouTube的多个应用中提升用户体验，凸显出我们方法的广泛影响(第6节)。特别是，普通用户完成用户体验的可能性增加了18%，当他们完成用户体验时，他们选择的主题增加了77.7%。此外，我们的双因素视频推荐方法可以让用户看到更有趣的视频，即使是在YouTube主页和YouTube通知中复杂的、最先进的RNN推荐器之上(表1)。

2 RELATED WORK

由于我们研究的是用户和系统之间的单轮对话，我们的工作可以在会话推荐系统的大背景下进行。
以对话方式提出建议的必要性[14,28]已经从多个角度进行了研究，包括基于访谈的[41]、主动学习的[39]、基于熵的[47]、基于图片的[36]、探索利用[47]、评价[10]、约束[16]、对话[8]和基于实用的[33]策略。我们建议读者参考文献综述[18,22,38]。在这里，我们将一些值得注意的作品与我们的系统进行比较;表2给出了比较概述。
表2:与会话推荐者的关系:Q&R是第一个基于大规模用户数据引导会话的系统，以实时流量显示，针对新用户和普通用户，并使用基于神经序列的模型。
许多会话性推荐工作都关注于在探索用户偏好空间和利用现有知识之间权衡取舍[12,47];这是我们工作的一个补充问题。关于潜在的模型，现有的工作使用潜在因素[12]或回归模型[2]。然而，当有大规模数据时，这些模型被证明比更深层次的模型更好。因此，我们建立在深度递归神经网络(RNNs)的基础上。对于问题的空间，大多数系统会询问关于最终推荐项的问题[12,47];但对于项目池很大且不断更新的域来说，这是不可能的，如视频。这就是为什么我们会针对主题进行提问，这样可以更有效地在同一主题的视频之间传播反馈。就所得到的反馈而言，现有的系统通常利用绝对或相对问题，或一系列问题[31]中两组项目之间的比较。相反，我们使用一个top-N列表设置，用户从中选择他们对[17]感兴趣的主题。此外，虽然大多数现有会话系统的目标用户都是冷启动用户[12,47]，但我们的系统也可以改善现有用户的体验。
此外，最近的会话工作，虽然还没有在推荐的背景下，已经集中在用户的自然语言理解，并回答基于知识的问题使用复杂的模型(如[26])。然而，给出个性化的建议和回答知识问题是完全不同的任务。本文通过用户点击进行交互;我们将口语对话作为未来的工作。此外，大多数现有的会话推荐已经在小规模上得到了证明;我们的系统是在一个大规模的工业环境中展示的。关于评价，考虑到理想情况下必须知道用户如何回答每个问题的固有困难，大多数系统都是使用半合成数据进行评价的[12,31];相反，我们根据真实的YouTube用户来评估Q&R。

3 SYSTEM OVERVIEW

在本文中，我们提出了以下问题:我们是否可以改善休闲用户的体验(即休闲用户)?比如，有一段时间没有访问过YouTube的用户，或者观看历史上只有几个观看的新用户)，询问他们可能感兴趣的话题。更普遍的是，有没有可能在大规模的工业环境中引导与用户的对话?在回答这个问题时，我们面临以下挑战

如何在高度复杂的传统非对话性推荐系统中利用大量的建模工作，同时仍然过渡到对话性系统
数据限制:在缺少对话数据的情况下，我们如何训练我们的系统提出好的问题，并在之后很好地适应推荐

为了解决这些挑战，我们提出了Q&R，这是一种新颖的早期工业系统，可以在用户的回答后进行自动提问和视频建议，在YouTube的背景下进行了演示。特别地，我们设计Q&R来解决这些挑战如下：

对于第一个挑战，我们将引入对话的任务分解为两个子任务:问题排序和项目响应。这样，我们就可以从item(在我们的案例视频中)推荐中的大量工作中获益。特别是，我们可以扩展复杂的模型，或者改变它们的输出空间，或者改变输入以包含问题的答案。这种方法的一个副产品是，我们不仅改进了会话领域，而且改进了(A)传统视频推荐和(b)传统问题(例如主题)推荐的最新技术。
这种将对话问题解耦为问题排序和视频响应部分的方法也帮助我们解决第二个挑战。特别是，Q&R依赖于根据代理任务的数据对每个任务使用的模型进行自举。可以根据传统推荐系统中已有任务的可用数据来定义这些代理任务。
我们利用现有的用户界面旨在使休闲YouTube用户的有更好的体验,我们称之为“用户培训的用户界面UI”(图2)。尽管这个UI限制我们单轮对话,单轮对话仍然是有趣的和可以提供有价值的见解设计multi-round会话推荐
用户选择界面

3.1 Design Goals

在设计Q&R时，我们的主要目标是在纳入系统后，改善用户体验。我们假设，为了达到这个目的，我们需要提高准确性：

问题排名质量
用户反馈后的响应相关性

我们用实验来验证这个假设。

我们在系统设计中考虑的其他方面是:可伸缩性，即能够很好地扩展用于推荐的大量条目，基于用户序列数据的时间模式，以及跟踪新生成内容的结果和对话的新鲜度

3.2 Main Components

Q&R由以下组件组成，如图1所示在这里插入图片描述
(1)问题生成(5.2节):一个深度序列网络，预测用户会对哪些话题感兴趣。
(2)项目推荐(或回应)(第5.3节):根据选择的主题预测推荐哪些视频的深度序列网络。

3.3 The Life of An Interaction

用户进入YouTube。该用户的特征是用户配置文件，它是一组描述用户及其与系统交互历史的特性。
基于触发机制，使用问题生成或项目(视频)推荐模块。触发机制可以像决定是否应该引导用户进行会话体验的随机机制那样简单，也可以更复杂一些，即。，使用条件捕获用户的状态，甚至是由用户发起的。当触发决定否时，使用传统的物品推荐器。否则，将调用两阶段对话方法。
如果触发机制决定是(例如，一个新用户或临时用户到达YouTube)，用户被引导到对话体验，这是通过一个“user Onboarding”UI实现的。这个UI,普遍对新用户推荐系统(如Facebook, Pinterest, Flipboard),提出了一种个性化的主题列表,生成模块选择的问题,用户的提示选择尽可能多的主题,理解,会被用来改善自己在内容提要中的体验。如图2所示。
一旦问题(top-1)或问题列表(top-k)被问到，用户就会提供反馈。在这项工作中，我们专注于积极的反馈类型，即。，用户在登录时选择了哪些问题/主题?给定用户反馈，将使用响应模块调整用户体验。响应模块将用户反馈与改进视频推荐相结合。理想情况下，对于Onboarding UI中选择的每个主题，用户应该能够找到至少一个与该主题相关的条目。

4 PROPOSED SURROGATE TASKS

现在，我们将焦点转向本文的中心主题之一:我们能否利用用户数据和传统接口提供的其他信号，来设计会话推荐器的新范式?我们通过构建代理任务来积极回答这个问题，并在此基础上训练预测模型。
出于这项工作的目的，我们考虑单个回合的对话。我们用两个人之间的实际有效对话的方式作为灵感:A问一个问题，或者给出一个提示，然后B回答这个问题。然后，为了完成一个完整的对话，A应该这样做：（1）理解B所说的与A所问的相关的话，(2)根据B的回答，调整他们对对话状态的心理模型。
同样,在一轮对话之间的推荐系统用户(a)和(B),谈话推荐应该是用于两个任务:(1)决定问用户什么,(2)根据用户提供的反馈，决定如何调整响应并改变其关于用户的模型。
接下来，我们专注于将这些任务形式化，以及每个任务的精确训练程序;在第5节中，我们将介绍我们为这些任务建立的机器学习模型。

4.1 Proxy Task for: What To Ask

对于用于问题排序模块的代理任务，理想情况下，我们需要由触发会话系统提出的好问题的数据，给定用户配置文件。相反，我们引入代理任务:用户希望观看的下一个视频的主题是什么
为此，我们考虑样本用户的观看，并将其分为两个部分:t之前观看的视频序列和t + 1时观看的视频序列。然后，我们使用观看序列数据来预测与下一个要观看的视频相关的最相关的主题ID(注意，未来的视频ID没有作为输入给出)。这个设置可以捕获用户对即时推荐设置的兴趣。
我们选择预测的任务点击视频年代主题而不是预测其他用户信号如用户搜索查询/评论(s),我们想:(i)捕获未曾表达用户兴趣,可以直接来自未来的话题看视频,和(2)问问题,涵盖了大的利益空间(而不是如关注最热门查询/评论的话)。
本质上，为了解决“问什么”任务，我们将问题简化为构建更好的用户配置文件[9]，即。，根据用户感兴趣的主题预测未来的顺序。这提供了一个双重的目的:首先,显示用户的推荐了解他们的偏好(建立用户信任),其次,更准确的个性化主题建议在问什么模块,用户点击的机会越多这些主题,因此在视频首页不同当然,响应模块是否可以找到有关这些主题的有趣的视频。

4.2 Proxy Task for: How to respond

如果用户已经看到了一个问题并对其做出了回应，那么系统应该如何整合反馈并给出建议呢?由于我们无法访问成功的一轮对话中的数据，因此我们引入了这个代理任务:给定将要观看的视频中最相关的主题，用户最感兴趣的是哪个视频?为此,我们将抽样用户的观看历史数据分为两部分:(1)到t的观看视频序列，以及在t+1中观看视频的主题ID和(2)t + 1的观看视频,。我们用 part (1)来预测part (2)。。在这里，我们使用未来观看视频的主题ID来扮演用户提供反馈的角色,比如。，假设用户想要看一个深夜秀视频，我们应该推荐什么视频

5 MODELING

Q&R的核心是一个统计模型，用于为用户生成潜在问题(5.2)，以及一个统计模型，在给出用户的答案和其他信息后，生成适合的项目推荐(5.3)。

5.1 Using Sequential Neural Models

对于这两个模型，我们采用顺序方法，因为我们希望根据过去预测未来。特别是，我们基于推荐系统的最新进展，将top-N推荐问题视为一个顺序到一的学习问题[6,45]:给定事件的顺序(例如观看)，用户将观看的下一个视频是什么?对于序列的下一个时间步，这个问题可以被定义为一个多类分类问题，其中每个视频都是一个不同的类。这不同于评分预测视图(用户会给视频加多少颗星?)，分类视图(用户会点击这个视频吗?)，排名视图(为一个用户对所有视频进行排名)，这些主要用于推荐建模[3]。
直观地说，顺序推荐器的主要构建块是长短期记忆(LSTM)[20]单元或门控循环单元(GRU)[11]单元，因为它们能够捕获用户行为模式中可能存在的长期和短期依赖关系。通常，循环单元将输入(可以是一系列特征(或特征嵌入))映射到捕获状态的潜在向量。通常紧随其后的是一个softmax单元，它将潜在状态映射到类概率。
采用顺序学习方法的好处是可以更好地捕捉用户偏好漂移，学习时间模式[21,24,45]。这对于在正确的时间交付正确的内容是至关重要的。这个视图建模与我们预测用户在未来会喜欢的主题非常一致，而用户在过去甚至没有对这些主题表示过任何兴趣。它还为未来的多轮对话工作提供了一个很好的测试平台，因为循环视图可以记住长期的依赖关系。
左:主题预测(问题排名)模型。右:反应模型的后融合方法

5.2 Proposed Question Ranking Model

既然我们预测主题问题q是基于一系列观察事件e，这个问题自然适合于顺序到一的学习。由于其良好的经验性能，我们使用的序列单元是GRU。输入的是用户历史记录中直到T个时间的观察事件——返回{e1，…， eT}，输出的是T + 1时刻用户感兴趣的主题的条件概率分布，输入是：

如图3(左)所示，输入了监视事件的序列，这样GRU的隐藏状态就编码了整个监视历史记录的向量表示。
然后，给定此隐藏状态，计算softmax输出并给出下一个时间步骤中主题语料库的概率分布。
训练。给定大量用户的观看历史，目标是最大化观察到的主题事件的日志概率，给定各自的过去的观看历史：
在这里插入图片描述
我们针对这个目标进行训练，即分类交叉熵损失，使用随机梯度下降。使用TensorFlow库[1]以分布式方式运行训练。
推理。在推理时，我们输入用户序列，并使用softmax输出来获得在最后时间步骤中主题语料库的概率分布。该分布用于显示概率最大的主题(或概率最大的k个主题)。
使用这个模型进行问题排序时，请注意，与之前的工作相比，这些问题是关于主题的，而不是具体的项目。这使我们能够利用用户对主题的反馈，将信息传播到变化的、更大的视频空间中。
主题推荐与文献的关系。关于个性化主题预测的文献很多，更普遍的是关于标签[7,27,29]/ topic [34] /query [5] recommendation。这些研究大多集中在发现潜在主题上，通常使用主题模型[25,37]或基于图形的算法[43,46]，而在我们的案例中，主题并不是潜在的。当主题明确时，大部分工作依赖于协同过滤[32,40,48]或信息检索解决方案[35]。据我们所知，尽管顺序方法已经成功应用于会话机器人[23,44]，并已应用于基于会话的推荐[19]或项目推荐[45]，但这是首次应用于主题推荐。

5.3 Proposed Video Response Model

假设用户选择了他们感兴趣的主题q。为了满足用户的主题兴趣，需要对视频推荐进行调整，以反映这种兴趣。数学上，我们想最大化P(r|e1, …, eT , topic=q),给定用户查看的历史记录e和点击的主题q，一个好的响应r(a.k.a用户接下来想看的视频)。我们讨论了两种可选的方法，限制输出和后融合，我们在6.1节中进行了经验比较。
限制输出。最简单的方法是使用一个已经训练好的基于视频 GRU的推荐模型[6]，但是在推理过程中限制softmax输出词汇表仅用于与该主题相关的视频，即。，而主题是与每个视频相关的给定特性。经过训练的模型与图3(左)所示的主题RNN具有相同的架构，除了softmax是关于某个主题q的视频词汇表。事实上，这个模型架构是[6]中提出的模型的一个更简单的版本。
后融合。另一种方法是训练一个序列模型来预测观看序列的最后一个视频，给定过去观看的事件和将要预测视频的主题。这个模型同样是基于 GRU的。输入与问题排序任务中的输入完全相同，唯一的区别是GRU隐藏状态输出与嵌入的与将要预测的视频相关的主题ID连接(融合)。我们给出的主题信息后融合，而不是预融合，在GRU之前，最大化反向传播过程中主题对softmax函数的影响。带嵌入主题的串接GRU输出通过ReLU单元传递(我们发现它在实验上有帮助)，然后通过视频传输到softmax。这里，输出词汇表不受限制。该模型如图3(右)所示。
左:主题预测(问题排名)模型。右:反应模型的后融合方法
训练。给定大量用户观看历史，目标是最大化观察视频的对数概率，给定与这些视频相关的各自主题和过去观看的顺序
在这里插入图片描述
推理。与未来视频观看相关的主题信息只有在训练时才知道。在推理过程中，我们传递用户在对话中选择的实际主题。对于每个主题，我们使用训练好的模型来推断top-K视频推荐。然后，使用一种后处理排序方法来混合不同主题的top-K推荐

5.4 Proposed Two-Factored Approach

结合5.2和5.3中描述的两个模型，我们可以将用户在T + 1内观看视频的概率建模为
在这里插入图片描述
换句话说，我们可以将产品推荐因素分解为两个模型:一个模型用于预测用户配置文件的个性化主题，另一个模型中，产品推荐与这些推断的主题相关[30,49]。
我们的假设是，通过正确地预测用户喜欢的主题，并将视频推荐空间限制为与该主题相关的视频，可以使项目推荐问题变得更容易。

6 EVALUATION AND RESULTS

我们进行了三组实验。首先是一个YouTube用户序列数据集，我们比较了提问和视频响应这两个独立任务的不同模型(章节6.1)。在第二组实验中，当我们在两个应用程序(YouTube主页和YouTube通知)中对真实YouTube用户评估我们的双因素方法时，我们探究了视频推荐方面的相对改进(6.2节)。为了评估Q&R的话题排名组件，我们在User Onboarding UI上进行了第三个实验，让真正的YouTube用户选择他们感兴趣的话题来个性化他们YouTube体验(章节6.3)。

6.1 Offline Comparative Analysis

评价设置。数据。关于用于训练模型的数据，我们遵循第4节中描述的代理任务的方法。我们采样了YouTube用户的观看序列，将每个序列分为两部分:(1)用户上一步到最后一步的观看序列，(2)用户最后一次观看事件的视频ID和主题ID。数据包含数亿用户的观看序列。观看受限于大量流行视频(数以百万计)，所有用户至少拥有数次观看历史(数十次)。用户被分成训练集、验证集和测试集，验证集和测试集都有数千万用户。顺序由观看视频列表和每次观看的时间戳给出。
每个观看视频有以下特点:视频ID, ID的最相关的主题相关的视频,视频的ID年代创造者(频道),功能显示的设备类型视频观看,时间戳信息捕获时间组件,一个向量变换的双功能,和其他人[6]。除视频ID和主题ID外，所有特征均显示为上下文输入特征，如图3所示。每个分类特性都有自己的词汇表(惟一的ID空间)，值的ID被映射为密集嵌入。词汇表之外的值被映射到零嵌入。分类特征的嵌入与数字特征连接，并通过GRU单元来捕捉整个观看历史
参数。我们使用验证集来优化模型参数。调整后，我们将嵌入尺寸、隐藏单位尺寸和softmax嵌入尺寸设置为256。视频词汇量和话题词汇量分别为数百万和数十万。在用于视频/主题推荐的视频/主题语料库上，使用采样的softmax进行训练，每批[6]中有数万个负样本。
实现。我们的模型是使用TensorFlow[1]建立的，并使用随机梯度下降来学习，直到收敛。
训练/测试。我们使用连续7天的观察序列作为训练数据，并对第8天的数据进行评估。这种设置确保了训练和评估数据是不相交的，而且我们确实能够预测未来连续的[13]。当对第八天的数据进行评估时，我们将这些数据的采样的观看序列作为输入，直到上一个时间步，并推断出在最后一个时间步中观看的主题/视频(类似于训练过程)。
指标。我们使用平均精度均值(MAP) @ top k作为评估数据中报告的离线度量。这是因为我们想要在我们的问题排名和视频响应模型中获得最高的推荐质量。k的值通常很小，例如 10-20，因为用户很少会在看到10-20条建议后向下滚动。MAP@k定义为用户平均精度(AP@k)的平均值，其中对于单个用户，AP@k为：
在这里插入图片描述
其中，如果用户已经观看过该视频/主题，则r位item的rel®为1，否则为0。MAP@k的理想值是1。
题目预测的结果。
首先，我们评估问题(主题)排名成分的预测质量。我们报告了MAP@20的结果，注意到MAP@1的结果遵循了类似的趋势。在图4中，我们将Q&R主题RNN模型(图3，左)的MAP@k与三个基线进行了比较

随机:随机排列集合q: q中的主题。
最受欢迎:根据与主题相关的视频观看的聚合数量对主题进行排名。
Multiclass-BOW:在事件序列上使用Bag-of-Words样式模型对主题进行排序。
随机基线帮助我们理解主题预测任务的复杂性。我们可以看到，随机得到的地图分数接近于0。q&r Topic RNN明显优于目前最流行的greedy state-less基线。这表明，对用户输入的观察序列进行条件设置对于准确排序问题是有效的，跟踪对话的状态对于建立一个好的话题预测模型是很重要的。此外，我们观察到我们的Q&R Topic RNN的表现比multiclass bow好8.07%;这表明，使用RNN单元来捕获数据的顺序性质，与使用word特性包相比，允许模型学习更复杂的表示。这个实验验证了我们的主题预测模型作为一个序列问题。
视频响应预测结果。
接下来，我们评估视频响应分量的预测质量。我们比较了我们提出的两种方法:限制输出和后融合与一个RNN视频推荐模型不受主题的使用，我们称为视频RNN。视频RNN和限制输出的区别,在推理,后者年代softmax输出限制的语料库与最相关的主题相关联的所有视频,视频的预测,而在视频RNN这种限制并不适用
图5展示了这些视频响应模型的MAP@20。通过比较的方法条件预测视频的主题(如限制输出,Post-Fusion)视频RNN,我们可以看到这个主题上的条件设置(用作后融合特性，或作为输出词汇表的限制)可以使推荐准确率提高3倍以上。同时，比较我们讨论的两种视频响应方法(第5.3节)，即通过后融合，我们发现限制输出可以获得更好的预测质量，输出空间小得多，需要学习的参数少得多。即使我们比较限制输出和限制输出的融合后混合方法，情况也是如此:限制输出仍然更好。我们假设，这种行为是由于限制部分受到后融合能力的限制

6.2在YouTube上评估Q&R

评价设置。这个实验的目的是为了回答这样一个问题:我们将视频推荐分解为双重推荐模型的方法，（例如:、(1):用户历史→主题推荐;(2):用户历史与安全和（1）中top-K 主题→推荐的视频），比直接视频推荐模式有更好的用户体验
模型。为了实现这一点，我们对模型(1)使用我们的Q&R主题RNN模型，对模型(2)使用限制输出方法，因为它使用简单，因为它需要在维护的制作视频推荐器上进行小的更改。
我们将其与制作系统进行比较，制作系统已经为(单倍)视频推荐提供了基于制作rnnn的基线。
我们采用[13]，使用候选人生成和排名的两步方法，ranker是一个深度前馈神经网络，它给出了许多提名人模型生成的候选人，排名前k名候选人。
Live Traffic Testbeds.。我们选择在YouTube的两个独立模块上评估我们新颖的视频推荐的两种分解方法(主题是什么，以及给定主题的视频是什么):(1)YouTube主页“主题架”和(2)YouTube通知，我们将在接下来的内容中展示我们的结果。
设置。为了确保主题问题和视频推荐与用户的时间偏好一致，推荐的项目库会根据新的用户-项目交互频繁更新，以包含新的内容。主题词汇表通过收集与项目词汇表中的每个项目关联的所有主题来更新。为了保持新鲜度，问题生成和响应模型都会定期重新训练，以结合新的用户系统交互，同时使用最新更新的词汇表。在两周的时间里，我们在整个YouTube用户流量的一小部分上进行了现场实验。为了满足实时流量模型的需求，我们在命名器模型中加入了Q&R模型(Topic RNN + Restricted Output);然后，ranker模型将不同提名者对内容提要的视频推荐进行交叉。然后我们衡量哪一种提名算法能够找到能更好地抓住用户兴趣的视频推荐。
指标。这里，我们想衡量一下我们的双因素方法是否能更好地理解用户的偏好从而找到更多用户想看的有趣视频。作为对用户效用的代理指标，我们在主页上测试建议时报告观看视频的时间(观看时间)，在测试通知中的建议时，我们测量打开通知(通知-打开)的用户数量。
结果在YouTube主页上。我们评估方法的第一个UI是YouTube主页“Topic Shelf”。如图6所示，这个UI由主题货架组成，每个货架与一个主题相关联;话题可以是一般的电视节目或搞笑视频，也可以是特定的深夜电视节目或墨西哥烹饪食谱。在移动界面中，UI略有不同，主题触发的视频推荐是内联的(而不是单独的行)，而其他视频是通过单倍视频推荐模型推荐的。
任务是选择要显示的主题列表(问题排名)，以及填充这些主题列表的视频(视频回复)。
在这里插入图片描述
在将我们的双因素方法包括在视频推荐的提名者模型中之后,我们观察到平均模型结果在观看视频的时间提高了0.07%,而生产一个高度优化的基线,基线包括RNNs,很难竞争。这验证了我们的双重方法的有效性。我们假设这种改进的原因是主题推荐者可以为用户找到感兴趣的主题，从而使视频推荐者的工作在给定推断主题的情况下变得更容易。
结果在YouTube通知。我们在直播流量上进行的第二个实验是YouTube通知。在这种情况下，每天都有新的视频推荐被发送给那些选择通过通知接收他们的视频推荐的用户。最多只能向用户发送一个视频推荐。这里，我们采用[13]相同的方法，分两个步骤计算视频推荐，即候选人生成和排名，并将我们的Q&R模型添加到提名视频的模型池中进行排名。
在我们的实验中，在提名者中加入了我们的双因素方法后，我们观察到，与生产基准相比，我们的模型导致打开推荐视频通知的用户数量平均提高了1.23%。在这里，我们再次指出，制作基线是一个非常强大的基线，可以与之竞争，它已经包含了一个基于rn(单倍)的视频推荐模型。再次验证了我们提出的双因子方法的有效性，以及RNN模型对两步建模的有效性。

6.3 Results on User Onboarding

在我们的最后一组实验中，我们着重于评估Q&R主题排名组件，并通过会话体验的列表格式为普通用户创建更愉快的体验。特别是，用户被定向到Onboarding用户(图2)，这允许他们从100个个性化主题列表中选择一些主题，或者完全跳过Onboarding UI。在那里的所有用户流量中，我们在三天的时间里在一小部分上运行我们的实时实验。
在这个实验中，我们的目标是只比较Q&R的问题生成部分。类似限制输出的响应机制已经就位
我们将Q&R主题RNN与生成个性化主题列表的现有生产基线进行了比较。基线是一种朴素的贝叶斯方法，它将用户特征(包括观看历史)作为输入，生成top-K主题推荐。为了进行比较，我们执行了A/B测试，在A(对照)中我们使用朴素贝叶斯，在B(处理)中我们使用我们的循环解
在表3中，我们报告了在使用主题RNN对UI中的主题进行排序时，在新用户界面中(以及之后)获取用户满意度的指标有多大改善。我们观察到，在接受RNN主题推荐治疗的Onboarding UI用户中，与朴素贝叶斯基线的控制组相比，观看视频的时间平均提高了4%。我们进一步发现，在q&r主题RNN中，选择的主题数量平均比基线增加了77.7%。同时，我们发现完成Onboarding UI的概率增加了18%。实验结果验证了我们的基于rnn的主题推荐器能够找到准确的个性化主题;
从而使Onboarding UI更有用，并在与该UI交互后改善用户体验
在用户上线中Q&R主题RNN与主题排名基线的实时度量改进
总体而言，我们可以看到Q&R Topic RNN方法明显优于朴素贝叶斯基线。这表明，尽管用户观看序列的长度较小(假设触发的用户是随意的用户)，但在Topic RNN中学习的隐藏状态向量，在为用户创建精确的个性化主题列表方面，比手工制作的输入特征更具信息量。这让我们从现实世界中了解到，我们的方法让用户更容易表达他们的偏好，并让他们更好地控制自己的个性化体验。

7 CONCLUSIONS

据我们所知，这是第一项关于学习型交互推荐的工作。在大型工业环境中进行演示。
我们的工作让人们注意到一个经常被忽视的问题，即基于传统系统的交互来引导对话。我们相信，我们所做的不同设计选择和使用的代理任务的讨论会对实践者在过渡到更具对话性的系统方面取得了更快的进展有所帮助
在建立Q&R时，我们着手改善YouTube上普通用户的用户体验。用户完成用户入职体验的可能性增加了18%，当他们完成时，他们选择的主题数量增加了77.7%。
在此过程中，我们提供了一种新的基于神经网络的推荐方法，它将视频推荐分解为两个问题:用户对主题的历史和主题。用户history-to-video。我们展示了我们的方法对YouTube主页和YouTube通知的价值。
最后,在单轮对话,揭示该地区工业会话推荐系统的研究似乎是完全开放的探索,结合多向对话和多种类型的数据源,以及开发模式决定何时触发对话的经验,在未来被激动人心的主题探讨。