【论文阅读】Tiny-NewsRec: Effective and Efficient PLM-based News Recommendation（LLM4RS）

文章目录

【论文阅读】Tiny-NewsRec: Effective and Efficient PLM-based News Recommendation（LLM4RS）

1. 来源

“Tiny-NewsRec: Effective and Efficient PLM-based News Recommendation” in EMNLP 2022

2. 介绍

新闻推荐是为用户提供个性化新闻推送的一种被广泛采用的技术。最近，经过预先训练的语言模型（PLMs）已经证明了自然语言理解的强大能力，并通过改进新闻建模而有利于新闻推荐。

然而，现有的工作大多只是简单地用新闻推荐任务对PLM进行微调，这可能会导致训练前语料库和下游新闻文本之间已知的领域转移问题。
此外，PLM 通常包含大量的参数和较高的计算开销，这给低延迟的在线服务带来了很大的负担。

在本文中，作者提出了 Tiny-NewsRec，它可以提高基于PLM的新闻推荐的有效性和效率。

作者首先设计了一种自我监督的特定领域的后训练方法，以更好地使一般的 PLM 适应新闻领域，并在新闻标题和新闻主体之间进行对比匹配任务。
作者进一步提出了一种两阶段的知识蒸馏方法，以提高基于 PLM 的大型新闻推荐模型的性能，同时保持其性能。采用来自训练后程序不同时间步长的多个教师模型，在训练后和微调阶段将综合知识传递给学生。
在两个真实数据集上进行的大量实验验证了该方法的有效性和有效性。

1.1 产生背景

随着信息的爆炸式增长，大量新闻在微软新闻和谷歌新闻等在线新闻平台上发布，这很容易让用户在试图找到他们感兴趣的信息时不知所措。许多个性化的新闻推荐方法已经被提出来缓解用户的信息过载问题。

由于新闻文章通常包含丰富的文本内容，从新闻文本中学习高质量的新闻表征是新闻推荐最关键的任务之一。
作为预先训练的语言模型（PLMs）已被证明是强大的文本建模，并授权各种NLP任务，最近的一些工作深入研究使用 PLM 进行更好的新闻推荐。
- 例如，Wu等人（2021b）提出用 PLM 取代 CNN 和注意网络等浅层NLP模型，以捕捉新闻文本中的深层上下文。

然而，这些方法 只是简单地调整了 PLM 与新闻推荐任务，这可能不足以处理通用的训练前语料库和下游新闻文本之间的领域转移问题。

此外，PLM 通常有大量的参数。例如，BERT-base模型包含12层，具有110M参数。部署这些基于PLM的新闻推荐模型来提供低延迟的在线服务需要大量的计算资源。

1.2 提出方法

因此，在本文中，作者提出了一种 Tiny-NewsRec 方法来提高基于PLM的新闻推荐1的有效性和效率。在作者的方法中，

首先利用新闻文章不同部分之间的自然匹配关系，设计一种自监督领域特定的后训练方法，以更好地使一般 PLM 适应新闻领域。
- 基于PLM的新闻编码器在新闻标题和新闻体之间进行对比匹配训练，使其更好地捕获新闻文本中的语义信息，并产生更具区别性的表征在以下新闻推荐任务中，有利于对新闻内容的理解和用户兴趣的匹配。
此外，作者提出了一种两阶段的知识蒸馏方法来压缩基于 PLM 的大型模型，同时保持其性能。在培训后阶段和微调阶段，领域特定知识和任务特定知识分别从教师模式转移到学生模式。
此外，作者利用培训后过程中来自不同时间步长的多个教师模型，为这两个阶段的学生模型提供了全面的指导。
- 对于每个训练样本，作者根据这些教师模型的表现进行自适应加权，这允许学生模型总是从最好的教师那里学到更多。
在两个真实数据集上的大量实验结果表明，作者的方法可以将模型大小减小50%-70%，并将推理速度提高2-8倍，同时获得更好的性能。

作者的 主要贡献 如下：

作者提出了一种小新闻参考的方法来提高基于PLM的新闻推荐的有效性和效率。
作者提出了一种自监督特定领域的后训练方法，该方法在进行特定任务微调之前，用新闻标题和新闻主体之间的对比匹配任务训练PLM，以更好地适应新闻领域。
作者提出了一种具有多种教师模型的两阶段知识蒸馏方法来压缩大型PLM模型。
在两个真实数据集上的大量实验证明，作者的方法可以有效地提高基于PLM的新闻推荐模型的性能，同时大幅度降低模型的规模。

3. 相关工作

3.1 基于 PLM 的新闻推荐

随着预训练语言模型（PLMs）在多个NLP任务中取得的巨大成功，许多研究者提出将PLM纳入新闻推荐，并取得了实质性的收获（Zhang等人，2021b；贾等人，2021；Wu等人，2021b）。

例如，Zhang等人（2021b）提出了UNBERT，它利用 PLM 在单词级和新闻级捕获多粒度的用户新闻匹配信号。
Wu等人（2021b）提出了一种最先进的基于 PLM 的新闻推荐方法 PLM-NR，该方法用PLM实例化新闻编码器，以捕获新闻文本中的深层语义信息，生成高质量的新闻表示。
然而，这些方法只是微调了PLM与新闻推荐任务，其监督可能不足以填补通用训练前语料库和下游新闻文本之间的领域空白（Gururangan等人，2020；Madan等人，2021年）。
此外，PLM 通常包含大量的参数，计算开销较高。

与这些方法不同，作者的方法可以通过额外的特定领域的训练后任务来更好地缓解领域转移问题，并通过两阶段知识蒸馏方法进一步降低计算成本。

3.2 PLM 的域自适应

对 PLM 进行微调已成为许多NLP任务的标准程序（Devlin等人，2019年；Raffel等人，2020年）。这些模型首先在大型通用语料库（例如，书籍语料库和维基百科）上进行预训练，然后对下游任务数据进行微调。

扫描二维码关注公众号，回复： 17140923 查看本文章

尽管这种模式取得了巨大的成功，但它面临着已知的训练前和下游语料库之间的领域转移问题（Howard和Ruder，2018；Lee等人，2019；Beltagy等人，2019）。

一种通常用于缓解这一问题的技术是继续对一般 PLM 进行与下游任务相关的额外语料库的预训练（洛格斯瓦兰等人，2019年；查克拉巴蒂等人，2019年；汉和爱森斯坦，2019年）。

例如，古鲁兰根等人（2020）提出了领域自适应预训练（任务自适应 DAPT）和任务自适应预训练（TAPT），在任务特定微调之前，分别在给定任务的大量未标记领域特定文本和训练文本集上对 PLM 进行预训练。

与之不同，作者利用新闻文章不同部分之间的自然匹配关系，设计了一种方法，即特定领域的训练后方法，对新闻标题和新闻主体进行对比匹配任务，而不是继续进行预训练。它可以使PLM更好地捕捉新闻文本中的高级语义信息，产生更具更强的歧视性的新闻表征，有利于新闻推荐。

3.3 PLM 知识蒸馏

知识蒸馏（KD）是一种技术，旨在将重级教师模型压缩为轻量级学生模型，同时保持其性能（Hinton et al.，2015）。近年来，许多研究都在探索通过KD压缩大规模PLMs（Sun等，2019年；Wang等，2020年；Sun等，2020年；Xu等，2020年）。

例如，Jiao等人（2020）提出了TinyBERT，它允许学生模型在训练前和微调阶段模拟教师模型的中间输出和最终输出。

也有一些工作旨在提取 PLM 为特定的下游任务（Lu等人，2020年；Wu等人，2021c）。

例如，Wu等人（2021c）提出了针对智能新闻应用的NewsBERT。提出了一种协同学习师生模型的师生联合精馏框架。

考虑到单一教师提供的指导可能是有限的，甚至是有偏见的，

一些工作建议采用多个教师模式进行KD（Liuetal.，2020；Wu et al.，2021a）。

然而，所有这些工作都忽略了训练前语料库和下游任务域之间潜在的领域差距。据作者所知，作者是第一个在 PLM 的领域适应过程中进行KD的人。在作者的两阶段知识蒸馏方法中，特定领域和特定任务的知识都被转移到学生模型中。此外，采用多种教师模式为两个阶段的学生提供更全面的指导。

在这里插入图片描述

4. 方法解析

在本节中，作者将介绍 Tiny-NewsRec 方法的细节。作者首先简要介绍了基于PLM的新闻推荐模型的结构。然后介绍了自监督领域特定的训练后方法的设计和两阶段知识蒸馏方法的框架。上面表1 列出了本文中使用的一些符号。

在这里插入图片描述

4.1 新闻推荐模型

作者首先介绍了在 Tiny-NewsRec 中使用的基于PLM的新闻推荐模型的结构。如 图1(b) 所示，它由三个主要组件组成，

即新闻编码器、用户编码器和点击预测模块。
- 新闻编码器旨在从新闻文本中学习新闻表示。根据最先进的基于 PLM 的新闻推荐方法（Wu et al.，2021b），作者使用一个 PLM 来捕获新闻文本中的深度上下文，并使用一个注意力网络来聚合 PLM 的输出。
- 用户编码器目的是从用户最后一次点击的 L 个新闻的表示中学习用户表示，即 [n1，n2，…，nL]。
  - 根据Wu等人（2019a），作者通过一个注意力网络，从用户的历史互动中选择重要的新闻。
- 在点击预测模块中，作者将候选新闻表示 nc 和目标用户表示 u 的点积作为预测得分 $\hat{y}_{FT}$ 。

值得注意的是，作者的 Tiny-NewsRec 与新闻推荐模型的结构是解耦的。

其他基于PLM的新闻推荐模型（Jia等人，2021；Zhang等人，2021a，b）也可以被采用。

4.2 领域-特定后训练

由于直接在下游新闻推荐任务微调 PLM 可能不足以填补一般语料库和新闻文本之间的领域空白（古鲁兰根等人，2020；Madan等人，2021），作者建议在任务特定微调之前对 PLM 进行领域特定后训练。

考虑到新闻文章不同部分之间的自然匹配关系，作者设计了一个新闻标题与新闻主体之间的自监督对比匹配任务。该任务的模型框架如 图1(a)。
对于一篇新闻文章，作者将其新闻主题 nb 视为目标锚，并以其新闻标题 nt+ 为阳性样本。作者从新闻池中随机选择N个其他新闻标题[nt−1，nt−2，···，nt−N]作为阴性样本。
作者使用基于 PLM 的新闻编码器来获取新闻主体表示 hnb 和这些新闻标题表示 [hnt+，hnt- 1，hnt- 2，···，hnt-N ]。
作者采用InfoNCE损失（Oord et al.，2018）作为对比损失函数。其表述如下：
正如 Oord等人（2018）证明，最小化 $L_{DP}$ 可以使 $h_{nb}$ 和 $h_{nt^+}$ 之间互信息的下界最大化。因此，训练后的基于 PLM 的新闻编码器可以更好地捕获和匹配新闻文本中的高级语义信息。它将为相关文本（即新闻主体及其对应的新闻标题）产生更多类似的表示，并将其与其他文本区分开来，这也可以缓解PLM生成的句子表示的各向异性问题（Gao等人，2019；埃塔亚拉赫，2019；Li等人，2020a）。因此，作者提出的特定领域的训练后方法有利于以下新闻推荐任务中的新闻理解和用户兴趣匹配。

4.3 两阶段知识蒸馏

为了实现效率的优化，作者进一步提出了一种两阶段知识蒸馏方法，其框架如图1 所示。

在作者的框架中，轻量级学生模型被训练为在训练后阶段和微调阶段来模仿大型教师模型。
此外，利用作者的训练后过程中来自不同时间步长的多个教师模型，将更全面的知识转移到学生模型中。

4.3.1 第一阶段

步骤1：作者首先对基于 PLM 的新闻编码器进行特定领域的后训练。在后训练的过程中，在收敛后，每 K 步保存一个当前教师新闻编码器的副本，作者总共保存了 M 个教师模型。
步骤2：然后，作者使用这些教师模型在后训练将全面的领域特定知识转移到学生模型中。

由于这些教师模型在不同的时间步长下可能在一个输入样本上有不同的表现，作者为每个训练样本的每个教师分配一个自适应权重，这是通过其预测分数（如下）

和真实标签 $y_{DP}$ 之间的交叉熵损失来衡量。将第 i 个教师模型在给定样本上的权重表示为α（ti），其公式如下：
在这里插入图片描述
为了鼓励学生模型做出与最佳教师模型类似的预测，作者使用一个蒸馏损失来规范其输出的软标签，其表述如下：

$T_{DP}$ 是一个温度超参数，它控制着教师模型的预测概率分布的平滑性。此外，由于作者期望由学生模型和这些教师模型生成的表示在统一空间上是相似的，作者建议应用一个额外的嵌入损失来对齐这些表示。第 i 个教师模型与学生模型之间的嵌入损失公式如下：
在这里插入图片描述
其中，W（ti）和 b（ti）是第 i 个教师模型的附加线性投影层中的可学习参数。总的嵌入损失是所有这些嵌入损失的加权总和，即：

第一阶段的学生模型的损失函数是作者在特定领域的训练后任务中的蒸馏损失、整体嵌入损失和InfoNCE损失的总和，公式如下：
在这里插入图片描述

4.3.2 第二阶段

步骤3：作者首先用新闻推荐任务来调整这些 M 个经过后训练的教师新闻编码器。
步骤4：然后在微调过程中，将丰富的任务特定知识转移给学生。

与第一阶段类似，作者根据新闻推荐任务的输入样本，其交叉熵损失为每个微调教师模型分配一个权重β（ti），并在微调过程中应用以下精馏损失来调整学生模型的输出：
在这里插入图片描述
其中， $\hat{y}_{FT}$ 为模型在新闻推荐任务上的预测得分， $T_{FT}$ 为另一个温度超参数。作者还使用了一个额外的嵌入损失来对齐学生模型和教师模型的新闻表示和用户表示，其表述如下：

其中，W（ti）n、b（ti）n和 W（ti）u、b（ti）u分别是用于将第 i 个教师模型学习到的新闻表示和用户表示投影到一个统一空间中的可学习参数。此外，学生模型还被调整，以最小化其预测分数 ˆy(s) 和新闻推荐任务的地面真实标签 yFT 之间的交叉熵损失，即，

总的来说，第二阶段的学生模型的总体损失函数是蒸馏损失、包埋损失及其微调损失的总和，公式如下：
在这里插入图片描述

5. 实验

5.1 数据集和实验设置

1）数据集：作者用三个真实世界的数据集进行实验，即MIND、Feeds 和 News。

MIND是一个用于新闻推荐的公共数据集（Wu et al.，2020），它包含了六周内微软新闻网站上100万用户的新闻点击日志。作者使用它的公共训练集、验证集和测试集进行实验3。
Feeds 也是微软新闻应用程序从2020-08-01日至2020-09-01日收集的新闻推荐数据集。作者使用上周的印象进行测试，并从训练集中随机抽取20%的印象进行验证。
News 包含了微软新闻网站从2020-09-01日到2020-10-01日收集的新闻文章，用于作者的特定领域的后训练任务。表 2 总结了这些数据集的详细统计数据。

在这里插入图片描述

2）实验设置：
根据 PLM-NR（Wu等人，2021b），作者应用预训练的 UniLMv2（Bao等人，2020）来初始化新闻编码器中的 PLM，因为其优越的文本建模能力。

新闻表示和用户表示的维度都是256。温度超参数 TDP 和 TFT 均设为1。
在后训练，每K = 500步保存一个教师模型的副本，教师模型的数量M设置为4。
作者使用的是Adam优化器（Kingma和Ba，2015）进行训练。详细的实验设置列在附录中。
所有的超参数都将在验证集上进行了调整。
跟随 Wu等人（2020年），作者使用AUC、MRR和nDCG@10来衡量新闻推荐模型的性能。
作者独立重复每个实验5次，并以标准差报告平均结果。

3）对比方法：
作者比较 12层教师模型 PLM-NR12（DP）的性能特别是领域后训练微调，和作者的 Tiny-NewsRec 学生模型训练以下基线方法：

PLM-NR（FT）（吴等人，2021b），最先进的PLM基于PLM新闻推荐方法PLM应用于新闻编码器和直接微调新闻推荐任务。作者使用PLM的前1、2或4层，比较了它的12层版本和其变体的性能。
PLM-NR（DAPT）是 PLM-NR 的一种变体，它首先通过领域自适应预训练将 PLM 适应到新闻领域（古鲁兰gan等人，2020）。它继续对未标记的新闻领域文本语料库进行预训练，然后使用新闻推荐任务对其进行微调。
PLM-NR（TAPT）是PLM-NR的另一种变体，它首先通过任务自适应预训练将PLM适应下游任务。它继续对未标记的新闻集和下游训练数据进行预训练，然后用新闻推荐任务进行微调。
TinyBERT（Jiao等人，2020），一种最先进的两阶段知识精馏压缩方法，在训练前阶段和微调阶段进行知识精馏。为了进行公平的比较，作者使用 PLM-NR12（DP）作为教师模型。
NewsBERT（Wu et al.，2021c），一种专门用于智能新闻应用的 PLM 知识蒸馏方法，在微调过程中联合训练学生模型和教师模型。为了进行公平的比较，作者使用 12 层的领域特定后训练的新闻编码器来初始化教师模型。