谷歌Gemini 2.0大模型的发布正式淘汰传统RAG!背后的技术竟如此简单

谷歌刚刚发布的Gemini 2.0 Flash

小李哥在前几天的文章中详细介绍过Google发布的Gemini模型,它可能是目前性价比最高的AI模型。我之前写过很多关于RAG的文章,但是Gemini 2.0的发布标志着RAG可能将要成为旧技术,看到很多人对此讨论的非常热烈。在这些人中,有些人懂了背后的技术原理,有些人还不太明白,还有些人对此感到担忧。所以小李哥今天就会通过这一篇文章,把一切讲清楚。

  • RAG到底是什么?
  • 为什么Gemini 2.0的出现,意味着它可能不再像过去那样被需要?
  • 如果大家正在构建AI应用,或者只是对这个领域感兴趣,为什么要关心这个RAG被取代问题?

什么是RAG?

如果大家刚刚进入AI领域,那么可以了解下RAG是检索增强生成(Retrieval-Augmented Generation)的缩写。它是一种目前AI行业非常常见的技术,用于帮助AI模型(如ChatGPT)访问其训练数据之外的外部信息。大家可能在生活里已经见过它的很多实际应用。比如大家使用某些网站的客服或Bing的AI搜索时,当它在回答问题时查询了某些模型之外的信息时,这就是RAG在运行。

我们最常见的场景就是当大家上传文件到ChatGPT并向它提问时——这也是RAG的一个应用场景。RAG之所以变得如此重要,是因为过去AI模型的上下文窗口非常小。回到2023年初,那时候的模型只能处理大约4,000个tokens(大约相当于6页文本)。这意味着,如果有大量信息,AI是无法一次性“记住”所有内容,就需要将数据拆分并存储在特定的格式中(如嵌入、向量数据库、文本切分等),然后在需要时检索出相关部分。但现在Gemini 2.0的出现彻底颠覆了传统的RAG存储数据的方式。

传统RAG流程是怎样的?

下面我们就开始介绍Gemini 2.0 Flash是如何终结传统的RAG技术的。如今的AI模型随着能力的增强,都可以一次性处理海量信息。但Gemini 2.0可以处理高达100万tokens的上下文,有些模型甚至已经能处理200万tokens。这意味着,过去需要把数据拆分成小块、再想办法检索回来的RAG技术,现在已经完全没必要了——大家可以直接把整份数据喂给模型,让它一次性处理所有内容。

更重要的是——这些新一代大模型不仅记忆能力更强,而且准确性也大幅提升。谷歌的最新模型拥有有史以来最低的幻觉率(即“胡编乱造”的概率)。这一点,足以替换掉我们目前主流的传统RAG技术。

利用Gemini 2.0直接处理文档

这将如何改变目前的AI行业应用?

让我们举一个现实世界的例子。假设大家有一份财报电话会议的完整转录文本,它包含50000 tokens(这已经是一个非常庞大的文档)。如果使用传统的RAG方法,就必须将这份文档切分成512 tokens的小块并存储到向量数据库(如OpenSearch、PgVector等)。然后当有用户提问时,系统需要检索出最相关的文本片段,再输入AI进行处理。

那这样做的问题是什么?AI无法在整个文档的基础上进行推理。举个例子加入有人问:

“这家公司的收入与去年相比如何?”

如果仅仅检索出几个小片段,AI可能无法获得完整的信息。但如果大家将整个转录文本输入到Gemini 2.0呢?它可以同时查看所有内容——从CEO的开场发言,到财务数据分析,再到分析师提问的细节——然后给出更完整、更有深度的回答。所以当我说“RAG”即将被淘汰时,我的意思是:在某些特定的场景下(对上下文有比较高的要求),传统的RAG方式(把单个文档拆分成小块)已经过时了,大家不再需要这样做。我们可以直接把完整数据输入到大模型,让它自己处理并给出回复。

但是RAG并不是完全不被需要

有些人可能会问:“如果我有10万份文档怎么办?”这是一个好问题!如果大家要处理超大规模的数据集和文件,比如过去十年所有的苹果公司财报,那么还是需要一种方法来筛选自己最需要的相关内容以提升回复的效率和准确性。但即便在这种情况下,处理方式已经不同了。以前的做法是把所有文档拆成更小的片段。现在最佳的方法是:

  1. 首先检索所有相关文档(比如仅筛选出2020-2024年的苹果公司财报)。
  2. 将完整文档分别输入AI模型,并行处理。
  3. 合并所有AI的回答,得到最终答案。

这种方式比传统的文本切分方法更加准确。它让AI能够基于完整文档的整个财报的全部信息进行推理,而不是在分散的文本和不完整的碎片信息的片段上进行合成拼凑,这样会对最后回复生成的准确度大打折扣。

现代大规模文档处理方式

总结

如果大家正在构建AI应用和产品,或者只是想尝试一下自己做一些个人项目,建议大家使用最简单的文件上传方式!很多人尝尝会把事情复杂化,但实际上并没必要。直接把完整的文档上传到Gemini 2.0(或任何支持大上下文窗口的AI),让它自己完成推理即可。

另外有人会问未来AI的发展方向还会变吗?可能会!AI模型正在变得更便宜、更智能、更高效。但就目前而言?传统RAG方式已经慢慢走到尽头。直接把数据输入谷歌的新模型,它能以更少的成本提供更优质的结果。如果大家需要分析大量的文档,不妨用一用Gemini2.0试试看。或许你就会惊讶地发现,基于外部信息的内容检索生成已经变得和吃饭喝水一样简单。