省流:在RAG中,噪声文档不仅没有对系统性能造成负面影响,反而能够显著提高系统的准确性
1 检索文档类型分类
-
相关文档
-
包含直接与查询相关的信息,提供直接回答或解释查询的标准数据。
-
-
相关但不包含答案文档
-
虽然没有直接回答查询,但在语义上或背景上与主题相关联。
-
例如,如果有人问拿破仑的马的颜色,一份表述拿破仑妻子马的颜色的文档,虽然不包含正确信息,但与之高度相关。
-
-
不相关文档
-
与查询无关,代表了检索过程中的一种信息噪音。
-
2 论文实验与结论
2.1 相关但不包含答案文档的影响
- “Far”,"Mid","Near"分别代表将ground-truth文档放置在不同的位置
- 第一行“0”代表没有添加相关但不包含答案的文档,往后依次增加相关文档数量。
- “-”代表输入超出LLM所支持的输入长度。
、
扫描二维码关注公众号,回复:
17403744 查看本文章
![](/qrcode.jpg)
——>与查询语义上相关但不包含正确答案的文档对系统性能有负面影响
——>当ground-truth靠近查询语句时,模型的准确度最高。相反,当ground-truth位于上下文中间或远离查询语句时,模型的准确度降低。
2.2 噪声影响
在存在噪声的情况下,性能并没有下降,反而在某些情况下出现了显著提升