大模型LLM | 提升RAG系统性能的策略

RAG（检索增强生成）模型，通常被称为RAG系统，在大模型应用场景中被广泛使用。模型的原理其实很简单：根据用户的需求从数据集中检索信息，再使用大模型进行推理生成。

在这里插入图片描述

RAG的优势在于能够通过提供来自外部数据源来提高大模型的准确性和可靠性，这种方式可根据具体应用场景定制上下文信息，并且能够保持数据新鲜度，而无需进对大模型重新培训或者微调。

但RAG在实际应用中也存在不准确的情况。接下来我们进一步了解一下RAG的原理和优化方案。

RAG可以概括为三个步骤：

（1）索引

索引是LLM获得准确上下文以及答案的基础。建立索引需要先提取和清理文件数据，如Word、PDF或HTML文件。将文件内容转换为标准化的纯文本。因为大模型都有上下文限制，因此需要把文本分成更小的块。这个过程被称为切片。之后，使用嵌入模型把每个文本块被转换为数字向量。最后，使用一个向量数据库来存储文本块及其对应的向量。

（2）检索

在检索阶段，使用与建立索引阶段相同的嵌入模型把用户的查询信息转换成向量。然后，比对向量和向量块之间的相似性，检索出存储在向量库的前K个最大相似性文本块。

（3）生成

用户查询和检索到的块被应用到大模型的Prompt模板中。从而获得增强提示，作为LLM的输入。

但是在实施过程中，RAG的有效性和性能都是需要不断调优才能够达到理想效果。

调优的内容可以落实到索引的建立、检索和生成几个阶段，并从系统建设过程中的数据工程方法、向量数据库、算法、模型、技术架构、效果评估、特殊问题解决、持续创新以及法律法规等方面进行优化。

一、建立数据索引阶段

(1)数据清洗

数据质量是RAG性能的基础，需确保数据集的正确性、一致性。避免可能混淆语言模型的冲突信息，并且按规范组织数据。数据清洗的过程就是要把不符合这个标准的文本信息进行清洗、转换，以达到可用的标准。

(2)分块

对文档进行切块是处理外部数据的重要步骤，对RAG性能影响也比较大。分块技术包括：按长度、按段落、按标记等，具体需要根据外部数据的内容决定，因大模型在行业应用方面，需要深入理解业务。

以分块的长度为例，如果分块太小，可能检索出来的结果无法包含足够的上下文。如果分块太长，可能包含太多不相关的信息，干扰大模型的生成。

在使用分块的时候也可以利用一些“滑动窗口”等机制，来提高信息的覆盖面和连贯性。

(3)嵌入模型

嵌入模型（Embedding）是信息向量化的核心技术，模型质量直接影响检索结果。通常来说，生成的向量维度越高，精度就越高。

比较知名的Embedding模型如：BGE、GTE、E5、Jina、Instructor、XLM-Roberta、text-embedding-ada-002等等。

虽然很多通用的嵌入模型可以直接用，但在某些领域背景下，例如一些行业术语等，对嵌入模型进行微调可能对提高检索精度是有一定意义。

以下是向量数据库的选择与应用策略：

a）可扩展性和性能：

向量数据库针对处理大规模相似性搜索进行了优化，这对于具有大量知识库的RAG系统至关重要。
与传统数据库相比，它们提供了更高的查询效率，特别是对于高维空间中的最近邻搜索。

b）选择正确的向量数据库：

在选择向量数据库时，请考虑数据大小、查询延迟要求和可伸缩性需求等因素。
热门选项包括Faiss、Milvus、Pinecone和Weaviate。每一种都有自己的优势，因此请根据您的具体用例进行评估。
对于较小的数据集或原型，FAISS或Annoy等简单的解决方案可能就足够了，而较大的生产系统可能会受益于更强大的分布式解决方案，如Milvus或Pinecone。

c）索引编制战略：

尝试不同的索引算法（例如，HNSW、IVF、PQ），找到搜索速度和准确性之间最佳平衡的方法。可以考虑精确和近似最近邻搜索方法之间的权衡。

d）嵌入模型和专业性：

选择符合您的数据和任务要求的嵌入模型。这可能是一个通用的模型（如BERT）或特定领域的模型。
需要注意的是，嵌入模型的维度对存储的需求和查询性能的影响。例如一些向量数据库使用低维嵌入模型时性能更好。

e）元数据和过滤：

利用向量数据库的元数据存储功能，实现强大的过滤和混合搜索能力。
在执行向量相似性搜索之前，基于元数据实施有效的预过滤以缩小搜索范围。

f）更新和维护：

制定数据更新战略，以便在获得新的信息时有效地更新数据库。
可以考虑实现增量更新，以避免对微小更改进行完全索引重建。

g）聚类和数据组织：

探索语义聚类等技术来组织向量空间，以提高检索效率。
考虑针对非常大的数据集的分层方法，以实现有效的从粗到精的搜索。

h）混合搜索功能：

利用支持混合搜索的矢量数据库，将矢量相似性与关键字或BM 25风格匹配相结合，以提高检索质量。
尝试使用不同的方法组合矢量和关键字搜索结果。

i）监控与优化：

对向量数据库性能实施全面监控，包括查询延迟、召回和资源利用率。
定期分析查询模式并相应地调整索引策略或硬件资源。

j）硬件考虑：

对于大规模部署，需要考虑硬件选择（CPU与GPU）对矢量搜索性能的影响。根据您的可扩展性和管理要求，评估云托管解决方案与自托管选项。

k）多模态矢量数据库：

对于涉及多种数据类型（文本、图像、音频）的应用程序，请考虑支持多模态索引和检索的矢量数据库。
探索跨不同模态有效组合和查询的技术。

l）隐私与安全：

评估向量数据库的安全性，尤其是在一些敏感应用场景下。
考虑使用加密搜索或联邦学习等技术来保护RAG系统的隐私。

(4)元数据

将向量存储到向量数据库中时，一些向量数据库支持将它们与元数据一起存储。使用元数据对搜索结果进行数据过滤、添加日期、引用等信息。

(5)多索引

如果文档类型不一致或者跨领域知识的时候，也可以使用多索引。

(6)索引算法

向量数据库经常使用近似最近邻搜索（ANN）算法，例如：Facebook Faiss（聚类）、Spotify Annoy（树）、Google ScaNN（向量压缩）和HNSWLIB（接近图）。这些ANN算法一般都有可以调整的参数，比如HNSW中的ef、efConstruction和maxConnections。

在实践过程中，算法的参数通常已经由数据库研究团队在基准实验中进行调整了，RAG系统的开发人员通常不改动。

二、检索阶段

(1)查询转换

在RAG中执行过程中，用户查询的表达方式对上下文向量的检索会有影响。因此想要搜索到满意的结果，可对查询进行转换，例如：

a）重新表达：使用大语言模型（LLM）重新生成查询信息，然后再次尝试搜索。

b）假设性文档嵌入（HyDE）：使用大语言模型生成对搜索查询的假设响应，然后将两者一起用于检索。

c）子查询：将较长的查询分解为多个较短的查询，分别进行检索。

(2)检索参数

在检索过程中需要考虑语义搜索是否足够满足用例需要，是否希望使用混合搜索。

如果需要采用混合搜索，可以尝试调整混合搜索中稀疏和密集检索方法的加权聚合，alpha参数。

此外，检索结果的数量也很重要。检索到的上下文数量将影响到上下文窗口的长度。

若使用重排序模型，则需要考虑将多少上下文输入到大模型中。

虽然语义检索的相似性度量方式可以设置，但应根据所使用的嵌入模型来修改。例如：text-embedding-ada-002支持余弦相似度，multi-qa-MiniLM-l6-cos-v1支持余弦相似度、点积和欧几里得距离。

(3)高级检索策略

高级检索的基本思想为：用于检索的块不一定要与用于生成的块相同。理想情况下的做法是，把较小的块用于检索，获得较大的上下文。

检索策略如下：

a）句子窗口检索(Sentence-window retrieval)：不仅检索相关句子，还要检索句子之前和之后的窗口。

b）自动合并检索(Auto-merging retrieval)：文档以类似树状结构组织。查询时，可以将单独且相关的较小块合并成更大的上下文。

(4)重新排序模型

语义搜索是根据上下文与查询语义相似性来进行检索的，但“最相似”并不一定意味着“最相关”。

重排序模型（例如：Cohere的重排序模型），可以通过计算每个检索到的上下文与查询相关性的分数来过滤掉不相关的搜索结果。

在使用重排序模型的时候，可能需要设置重排序器的搜索结果数量，以及希望将多少经过重新排序的结果用于LLM，重排序模型的使用或者参数微调，也需要根据应用场景来进行。

三、生成阶段

(1)提示工程

大模型的内容生成和推理其实都是建立在提示工程的基础上，因此有效的提示工程对于指导生成模型产生高质量的输出至关重要。以下是一些对RAG特别有用的策略：

a）背景整合：

尝试将搜索到的信息合并到中的不同方法（例如提示，外部、后缀、组成）。在查询、搜索上下文和模型指令之间使用清晰的分界线。

b）说明功能：

提供有关如何使用搜索信息的明确说明。
在使用外部知识时，包括关于引用或归属的指导。

c）处理多个检索到的文件：

战略制定，来自大量检索来源的综合信息。
实现解决搜索信息中的冲突或矛盾的技术。

d）动态调整：

根据查询的性质和搜索到的信息实施自适应提示策略。
考虑在提示中使用少量示例来指导模型的行为。

e）及时校准：

根据输出质量和用户反馈定期评估和优化提示。
实施A/B测试，比较不同的提示策略。

(2)微调模型

大模型是生成内容的核心组件。有各种各样的LLM可供选择，可以根据应用场景结合大模型的特点（如：开放式与专有模型、推理成本、上下文长度等）进行选型，在一些专业应用场景下，可能还需要对LLM进行微调才能满足需要。

以下是一些可以考虑的策略：

a）领域适应：

在特定领域数据上微调语言模型，以提高目标领域的理解和生成。

在对更具体的任务进行微调之前，考虑对大量领域内文本进行持续的预训练。

b）针对特定任务的微调：

为特定用例开发模拟 RAG 过程（查询、检索到的上下文、期望的输出）的自定义数据集。

实施指令微调等技术来提高模型遵循提示中的特定指令的能力。

c) 检索感知训练：

探索使语言模型在微调过程中更了解检索过程的方法。

考虑对检索和生成组件进行联合训练，以实现端到端优化。

d) 生成内容控制：

微调模型以改善对生成内容的风格、长度以及内容的控制。

实施 PEFT（参数高效微调）等技术，以在保持性能的同时减少计算要求。

四、使用高效的RAG架构

在这里插入图片描述

优化整体 RAG 架构对于实际应用至关重要。以下是一些提高效率和可扩展性的策略：

（1）缓存和预计算：

为频繁访问的文档或查询结果实现缓存机制。

尽可能预计算嵌入和其它资源密集型操作。

（2）异步处理：

实现异步检索以减少面向用户的应用程序中的延迟。

考虑在离线或大容量场景中使用批处理。

（3）资源管理：

为RAG系统的不同组件实现高效的负载平衡和资源分配。

优化内存使用，尤其是大规模部署。

（4）简化流程：

通过性能分析，识别并消除RAG流程中的瓶颈。

对资源受限的环境使用轻量级模型。

五、评估和持续改进

严格评估和持续改进是开发高性能 RAG 系统的关键。以下是一些可以参考的策略：

（1）综合评价：

实施一套多样化的评估指标，涵盖检索质量、生成质量和整体系统性能。

考虑自动度量，例如:BLEU, ROUGE, perplexity 和人类评价。

(2）目标测试：

开发专门挑战RAG系统的测试集（例如：稀有信息的处理、多跳推理）。

实施对抗性测试以识别潜在的问题。

（3）A/B测试和实验：

建立一个强大的测试框架，系统全面地比较不同的RAG配置。

实施在线A/B测试以进行真实世界的性能评估。

（4）反馈回路：

建立收集和采纳用户反馈的机制，以便持续改进。

实施主动学习方法，以确定系统需要改进的领域。

六、处理常见的挑战

每个RAG系统都会遇到困难的情况。以下是应对常见挑战的一些策略：

（1）处理不充分或不相关的检索信息：

当无法检索到高质量信息时，实施回退策略。

进行模型调优，以改进不确定性或信息缺乏。

（2）矛盾信息的处理：

为模型实施策略，以识别和协调检索信息中的矛盾。

当无法给出明确的答案时，考虑提出多个观点。

（3）管理大型知识库：

为大型或快速变化的知识库制定有效的更新和维护策略。

实施版本控制和跟踪，以管理知识库随时间的演变。

（4）处理偏见和公平问题：

实施技术来识别和减轻检索和生成组件中的偏差。

定期审核系统的公平性和代表性问题。

七、探索新的RAG架构

随着大模型应用的发展，各种新的RAG架构层出不穷。以下是一些可以考虑的新方法：

（1）多步推理：

为需要多跳推理的复杂查询实现迭代检索生成循环。
探索诸如思维链提示之类的技术来提高推理能力。

（2）混合架构：

将联合收割机RAG与其他技术（如上下文学习或少量提示）结合使用，以提高性能。
探索动态决定何时依赖检索与模型固有知识的体系结构。

（3）多模态RAG：

扩展RAG以处理多模态输入和输出（例如，文本、图像、音频）。
开发跨模态信息综合的检索和生成策略。

（4）个性化RAG：

实现用户特定的知识库或检索偏好，以获得个性化体验。
探索平衡个性化与隐私注意事项的技术。

八、做一个有道德和负责任的RAG

在实施RAG时，考虑法律法规、道德影响至关重要。

以下是一些需要重点考虑的因素：

（1）透明度和可解释性：

实施机制，以提供对检索过程和信息来源的洞察力。
开发解释生成输出背后的推理的技术。

（2）隐私和数据保护：

确保在构建和部署RAG系统时遵守数据保护法规。
对知识库中的敏感信息实施隐私保护技术。

（3）错误信息和内容审核：

制定强有力的策略，以识别和处理检索内容中可能有害或误导的信息。
在交互式RAG系统中为用户生成的内容实施内容审核流程。

（4）道德使用准则：

为负责任地开发和部署RAG系统制定明确的指导方针。
随时了解该领域不断发展的法律法规、道德标准和最佳实践。

九、总结

本文简要介绍了RAG的原理和RAG调优的方法。可以从数据质量把控、数据分块、重新排名、检索优化、RAG架构、评估以及道德影响等方面进行权衡以及调优。

以下是一些关键点：

数据质量是最重要的：有效的RAG系统的基础在于准备充分的高质量数据。在彻底的数据清理、分块和元数据丰富上投入时间。
利用向量数据库：仔细选择和配置向量数据库，以确保高效、可扩展的检索。考虑索引策略、嵌入模型和硬件要求等因素。
优化检索：尝试高级嵌入技术、混合检索方法和上下文检索，以提高检索信息的相关性。
掌握提示工程：制作清晰、具体的提示，指导模型有效地使用检索到的信息。定期完善和测试你的激励策略。
适当的微调：在适当的时候，在特定于领域的数据或特定于任务的数据集上微调语言模型，这些数据集模仿RAG过程。
构建高效的架构：实现缓存、异步处理和高效的资源管理，以创建可扩展的RAG系统。
严格评估：结合使用自动指标和人工评估。实施持续测试和反馈循环，以持续改进。
处理特殊情况：制定处理不充分或矛盾信息的策略，并准备在适当的时候承认不确定性。
持续创新：探索多步推理、混合方法和多模态RAG等高级架构，以突破可能性的界限。
注重伦理道德：考虑RAG系统的社会影响，包括透明度、隐私和减轻潜在危害的策略。

十、最后分享

AI大模型作为人工智能领域的重要技术突破，正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口，掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

1. 成长路线图&学习规划

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包，有需要的小伙伴可以微信扫描下方CSDN官方认证二维码，免费领取【保证100%免费】