研究发现更大的上下文对大语言模型来说意义不大

研究发现更大的上下文对大语言模型来说意义不大

        在大语言模型中,上下文窗口指的是模型在给定实例中可以处理和响应的文本长度。它可以被视为特定文本分析或聊天机器人对话的工作记忆。许多人都认为,语境窗口变大的趋势将继续提高 大语言模型的性能和在各种应用中的实用性。但根据一项最新研究,大语言模型往往无法访问和使用在较长的上下文窗口中提供给它们的相关信息。当相关信息出现在输入上下文的开头或结尾时,它的性能最佳;而当模型必须在长上下文中间获取相关信息时,性能就会明显下降。此外,随着输入上下文的长度增加,即使是明确的长上下文模型,性能也会大幅下降。一味的追求长上下文,例如从标准版的4k扩展到8K,16K,32K,64K等,可能并没有太大意义。

 Stanford study challenges assumptions about language models: Larger context doesn’t mean better understanding

猜你喜欢

转载自blog.csdn.net/qq_38563206/article/details/133035313
今日推荐