人工智能咨询培训老师叶梓 转载标明出处
检索增强生成技术尽管出现了各种开源方法和商业系统,如Bing Chat,但生成的长文本答案中缺乏事实性和清晰逻辑的问题仍未得到解决。为了解决这些问题,来自蚂蚁集团和清华大学的研究者们提出了一种名为FoRAG(Factuality-optimized Retrieval Augmented Generation)的新方法。
图1展示了在网络增强型长文本问答任务中,大模型的输入处理过程。图中左上角描绘了任务的输入,左下角展示了现有的生成器如何直接生成答案,而中间部分则介绍了本文提出的大纲增强生成器。这种生成器在生成长篇答案前,会先起草一个组织模式和大纲,以增强答案的逻辑性。图的右侧展示了本文提出的双重细粒度的事实性优化方法,该方法通过在事实性评估和奖励建模这两个核心步骤中融入细粒度设计来优化事实性,并在每个步骤中提出了多种粒度级别的方法。
方法
FoRAG技术的核心在于两阶段生成过程。该方法包括两个阶段:首先是生成答案的大纲,然后是扩展大纲生成完整的回答。
大纲增强的RAG
大纲增强型生成器
在大多数现有的开源方法中,回答是直接生成的,即检索到的内容与原始查询直接连接,并使用特定的提示模板输入到生成模型中。然而,与闭源方法生成的回答相比,这些回答通常较短且缺乏清晰的逻辑结构。为了提高性能,一种可能的方法是使回答更加有组织。一些研究发现,包含任务描述和一些示例的精心设计的提示将提高不同任务上生成回答的质量。例如,“让我们一步一步思考”的技术通过鼓励链式推理能力,显著提高了性能。
受上述工作的启发,研究者们将大纲增强技术引入到回答生成中。他们提出的生成器包括大纲阶段和扩展阶段,这与人类回答问题时通常先概述和组织答案,然后再扩展每个点的直觉一致。具体来说,为了生成具有清晰逻辑流程的高质量输出,他们提示模型首先输出最终答案的大纲,然后将草稿连接到提示中以生成完整回答。在表1中,通过应用大纲增强生成技术,生成的回答(Ans. (OE))比原始回答(Ans. (Ori))显著更长,这表明了更强的逻辑结构。
大纲增强型长文本问答数据集
目前,用于训练网络增强型RAG模型的开源网络增强型长文本问答数据集只有两个。英文数据集WebGLM-QA包含44k个样本,而中文数据集WebCPM包含5,500个样本。两个数据集中的查询都从ELI5中采样,WebGLM-QA从中采样问题,WebCPM还使用人工注释者将问题翻译成中文。然后使用网络搜索引擎收集相关段落。
研究者们使用这两个数据集中的查询和相关段落构建了一个大纲增强型双语长文本问答数据集。他们应用大纲增强生成技术,使用GPT4收集大纲增强型回答。他们设计了一个提示,指导GPT4以逐步的方式执行大纲阶段和扩展阶段。表1中提供了现有数据集和他们的大纲增强型回答的详细统计数据。可以清楚地看到,他们的示例回答比现有工作中的回答长得多,这是由于更强的逻辑结构。从WebCPM和WebGLM派生的大纲增强型回答是公开可用的。
事实性优化的RAG
为了解决网络增强型长文本问答中的事实性问题研究者提出了一种新颖的事实性优化方法,他们开发了一种新颖的双重细粒度RLHF框架,该框架表征了自动化评估和奖励建模的不同粒度。
直接应用RLHF的困难
在大模型对齐中,使用人类反馈的强化学习(RLHF)是一种广泛使用的技术,用于减少不良生成,例如聊天助手任务中的有害回答。将非事实性视为某种不良行为,自然而然地,促进网络增强型RAG中的事实性的一种方法是利用RLHF来防止生成器产生非事实性回答。通常,RLHF是在手动注释的偏好数据上进行的。例如,给定查询和检索到的上下文,回答的事实性可以被注释为,其中反映潜在的人类偏好。RLHF训练一个奖励模型来估计给定任何查询、参考和回答的事实性,即学习人类偏好函数R。然后应用RL方法,如PPO,基于训练好的奖励模型来优化生成模型。
然而,直接将传统的RLHF方法应用于网络增强型LFQA的事实性优化会遇到两个固有困难。首先,手动注释的事实性标签通常很昂贵,这涉及到比较长篇回答和其相应冗长参考之间的事实细节。其次,标准RLHF使用整体奖励,即,只有在整个回答的最后一个token时才不为零。这种整体奖励只能为生成模型的训练提供稀疏的信号。在网络增强型LFQA中,由于回答通常是长篇的,因此由于使用整体奖励而导致的稀疏问题将更加夸张。
双重细粒度RLHF
鉴于传统RLHF在网络增强型RAG的事实性优化中的上述困难,研究者们提出了一种双重细粒度RLHF框架,以细粒度的方式进行事实性优化。与主要关注单一维度的先前工作不同,他们的框架结合了两个核心步骤的细粒度设计:事实性评估和奖励建模。
研究者首先介绍了必要的符号和定义,这些符号和定义使得可以为答案表征多个奖励,构成RL过程中的更密集的奖励信号。具体来说,他们首先将输出分解为L个文本跨度,每个跨度对应于评估粒度,其中每个跨度在步骤结束。密集的奖励信号是一个L维向量,其第l维代表给定查询和检索上下文的输入的每个跨度的奖励,该奖励分配给最终token在。特别是,当L=1时,他们的方法退化为具有整体奖励的标准RLHF。
细粒度评估
研究者考虑了答案分解和自动化片段评估的三个不同粒度级别:
- 整体:这是评估答案的标准粒度。每个生成的答案都与单一的事实性分数相关联。
- 句子级别:如先前研究建议的,可以将答案分解为句子,然后分别评估每个句子。在这种情况下,评估结果被表示为,其中i是句子的索引。
- 子声明级别:按照先前的工作,他们可以通过大模型进一步将每个句子分解为多个子声明,每个子声明包含单个事实信息。分解后,他们分别评估每个子声明。由于使用大模型的分解打破了子声明与原始答案之间的关联,因此他们将所有子声明的分数聚合成一个分数以评估句子的事实性。更具体地说,假设句子i有j个子声明,那么句子的评估分数由给出,其中表示句子i的子声明j的事实性分数,Agg是聚合函数(以平均值、最小值或最大值的形式)。
细粒度奖励建模
在两个可能的粒度级别上构建奖励模型:
- 序列级别:为每个序列学习一个单一的奖励,其实际形式取决于评估的粒度。通过这种方式,关联的奖励反映了相应序列的事实性,然后被分配给每个序列的最后一个标记。
- 标记级别:为序列中的每个标记学习一个奖励。通过这种方式,序列的奖励是通过聚合所有标记级别的奖励来计算的,即。
在表2中,展示了不同细粒度评估和细粒度奖励建模技术的组合在训练损失方面的对比。这种双重细粒度RLHF框架不仅解决了事实性问题,还为网络增强型RAG提供了一种新的优化策略,可以推广到其他RLHF任务中。通过这种方法,研究者们能够更细致地评估和优化生成回答的事实性,从而提高回答的质量和可信度。
实验
实验使用了两个常用的网络增强型长文本问答(Web-enhanced Long-form QA)数据集:WebGPT数据集和WebCPM数据集。WebGPT数据集包含272个样本,每个样本由ELI5数据集中的一个问题、几个Bing检索到的网页以及提取的参考资料组成。而WebCPM数据集则是一个中文数据集,结构与WebGPT类似,研究者们随机将其分为了训练集、验证集和测试集。
表3展示了FoRAG-L 7B和FoRAG-C 6B在这两个数据集上与其他现有方法的性能比较。结果显示,FoRAG-C 6B在五个评估指标中超过了所有基线方法,而FoRAG-L 7B在所有指标上表现最佳,尤其是与参数数量为其24倍的WebGPT-175B相比,FoRAG-L 7B在双语网络增强型问答任务中显示出了优越性。
为了进一步评估大纲增强型生成器的有效性,研究者们训练了两个基线模型,这些模型直接基于数据集生成答案,而没有使用大纲阶段。表4中的结果显示,使用大纲增强型技术可以显著提高模型在连贯性和有用性方面的性能,尤其是在中文任务中。
研究者们还评估了事实性优化技术的有效性。表4表明,添加事实性优化技术可以显著提高问答和句子层面的事实性一致性得分,而不影响其他两个指标或生成长度。
研究者们比较了不同事实性优化粒度的FoRAG方法的性能,并发现子声明级别的评估表现最佳。他们还发现,与常规的段落级奖励建模相比,标记级奖励建模的性能较差,这可能是因为数据集的长度可能导致了标记级建模的过拟合。
最后研究者们评估了训练效率,并发现大纲增强型生成步骤对训练时间的影响几乎可以忽略不计,而双重细粒度RLHF步骤对推理时间没有影响。尽管双重细粒度RLHF框架的最佳执行版本比标准RLHF多花了大约67.7%的时间,但通过使用多头奖励层和精心设计的关注掩码,可以在一次前向传递中计算所有句子的奖励,从而使得额外的计算成本变得微不足道。总的来说,FoRAG在合理的额外计算成本下,超越了基线方法。