老婆问我:“什么是大模型的“上下文”?”

最近,老婆又又又刷到一条新闻(PS:也不知道为什么总是看新闻):“大模型靠上下文理解能力碾压传统 AI!”她一脸懵地问我:上下文不是写作文要首尾呼应吗?难道 AI 还要学语文课?

我乐了:上下文不是作文技巧,而是 AI 的“记忆项链”——把零散的信息串成连贯的逻辑。就像你和朋友聊天时,绝不会突然蹦出一句“给我一杯拿铁”,而是会说:“刚才提到的那家咖啡馆,请推荐招牌饮品。”AI 有了上下文能力,才能听懂这背后的关联。

她更疑惑了:以前的 AI 听不懂人话吗?为啥非要搞上下文?

其实背后有个关键问题:传统 AI 像金鱼,7 秒就失忆。举个例子,你问 AI:“《哈利波特》作者是谁?”它答:“J.K.罗琳。”接着问:“她最近的新书是什么?”传统 AI 会反问:“‘她’是谁?”而具备上下文能力的大模型,就像贴心的助理,立刻明白“她”指代上文的罗琳。

上下文的本质

想象一下,上下文能力让 AI 拥有了“时间线管理术”。它不仅能记住你说过的话,还能像侦探一样串联线索。核心不是存储信息,而是理解信息流中的因果关系。

举个点咖啡例子
  • 无上下文模型:</