论文略读:The Power of Noise: Redefining Retrieval for RAG Systems

省流:在RAG中,噪声文档不仅没有对系统性能造成负面影响,反而能够显著提高系统的准确性

1 检索文档类型分类

  • 相关文档

    • 包含直接与查询相关的信息,提供直接回答或解释查询的标准数据。

  • 相关但不包含答案文档

    • 虽然没有直接回答查询,但在语义上或背景上与主题相关联。

    • 例如,如果有人问拿破仑的马的颜色,一份表述拿破仑妻子马的颜色的文档,虽然不包含正确信息,但与之高度相关。

  • 不相关文档

    • 与查询无关,代表了检索过程中的一种信息噪音。

2 论文实验与结论

2.1 相关但不包含答案文档的影响

  • “Far”,"Mid","Near"分别代表将ground-truth文档放置在不同的位置
  • 第一行“0”代表没有添加相关但不包含答案的文档,往后依次增加相关文档数量。
  • “-”代表输入超出LLM所支持的输入长度。

扫描二维码关注公众号,回复: 17403744 查看本文章

——>与查询语义上相关但不包含正确答案的文档对系统性能有负面影响

——>当ground-truth靠近查询语句时,模型的准确度最高。相反,当ground-truth位于上下文中间或远离查询语句时,模型的准确度降低。

2.2 噪声影响

在存在噪声的情况下,性能并没有下降,反而在某些情况下出现了显著提升

猜你喜欢

转载自blog.csdn.net/qq_40206371/article/details/143249172