在人工智能领域,大模型的推理能力一直备受关注。OpenAI的GPT-4和其他大模型的表现令人惊叹,但究竟是否具备真正的数学推理和抽象逻辑能力?最近,苹果的研究人员发表了一篇题为“GSM-Symbolic:理解大语言模型中数学推理的局限性”的论文,深度分析了大模型的数学推理表现,揭示了其在抽象逻辑和推理任务上的局限性。本文将详细解读这篇论文,并探讨目前主流模型在逻辑推理方面的核心问题。
1. 大模型推理能力的现状
当前大模型在数学推理测试中的优异表现令许多人认为这些模型或许已经具备“类人”推理能力。然而,苹果团队通过对GPT-4、LLaMA、Phi等多个闭源和开源模型的研究发现,这些模型并未表现出真正的逻辑推理,而更像是复杂的“模式匹配器”。也就是说,它们依赖于已有的训练数据和模式识别来回答问题,而非逻辑化地推导答案。
苹果研究团队认为,随着大模型训练数据的增多,数据污染不可避免——模型可能在训练数据中接触过评估数据集的题目,因此即便模型表现出色,也可能仅仅是记住了答案,而不是通过逻辑分析解决问题。
1.1 使用GSM8K数据集进行初步测试
GSM8K数据集包含了8000个小学难度的数学问题,并一直是大模型数学推理能力的标准测试集。大模型的GSM8K表现从初期的GPT-3的35%逐步提高到现在的85%以上。但这种提升可能源于模型的记忆性,而非逻辑推理能力。
1.2 数据污染问题及其影响
由于GSM8K数据集在2021年发布,目前主流的大模型训练数据中可能包含了该数据集的一部分问题。模型可能通过“背答案”来解答GSM8K题目,而非真正理解问题的逻辑。因此,使用GSM8K数据集来评估模型的推理能力存在局限性。
2. GSM-Symbolic:苹果新数据集的设计
为更客观地测试大模型的数学推理能力,苹果团队开发了新数据集GSM-Symbolic,对GSM8K数据集进行了重新设计和变化,以避开数据污染问题。具体来说,GSM-Symbolic通过更改题目中的数字、称谓、玩具种类等元素来生成多个“新”题目,并设计了额外的数据集GSM-NoOp,在问题中加入无关信息以考察模型对冗余数据的敏感度。
2.1 GSM-Symbolic的结果分析
在GSM-Symbolic的数据集上,即便是GPT-4等性能优越的模型,准确率显著下降。大多数模型在更换题干后准确率下降幅度大于1%-2%。例如,只改变题目中的名称和数字即可造成模型性能显著下降,显示出这些模型在遇到陌生信息时会产生认知困扰,无法系统性地推导答案。
2.2 增加无关信息对模型表现的影响
苹果团队还在GSM-NoOp数据集中加入无关信息,发现所有模型的准确率都显著下降。比如,Phi-3-mini模型准确率下降超过65%,即便是GPT-4等表现优异的模型也出现了接近20%的准确率下降。这表明,当前大模型在处理多余信息时缺乏必要的区分和排除机制,会将冗余信息当作逻辑推理的一部分。
3. “模式匹配”还是“逻辑推理”?
苹果的研究团队认为,现有大模型更接近于“模式匹配器”而非“推理器”。其推测是,大模型将任务问题视作一种子图匹配的问题,将其逐步映射到训练数据中存在的类似子问题上,而并非依靠内在逻辑分析逐步解答问题。
3.1 线性化子图匹配
一种重要理论解释是“线性化子图匹配”——任务问题可以被表示成有向图,大模型通过图中子图和已有数据的相似性进行近似推理。然而,模型并未在逻辑上分解任务步骤,而是依赖模式识别。例如,在乘法问题中,模型未表现出人类推理的能力,而是仅在常见乘积(如7×4=28)上取得了成功,在更复杂乘法上则表现糟糕。
3.2 实验验证:乘法任务
研究团队在乘法任务上测试模型表现,如两位数和三位数的乘法,发现大模型在训练集上常见的小乘法表现优越,但在更大范围的乘法上表现糟糕。说明模型在更复杂的问题上缺乏系统性的分解与分析,仅在有限子图范围内完成匹配,而非通过逻辑化思维解决问题。
4. 大模型的推理局限性:现状与展望
苹果的研究表明,大模型在多步推理和逻辑归纳上存在重大缺陷,且在遇到冗余信息、问题格式变动等干扰时表现不佳。其推理更像是记忆和近似匹配而非人类逻辑分析。类似的实验也出现在谷歌DeepMind等研究中,进一步印证了大模型的推理局限性。
4.1 当前局限性和未来挑战
- 过度依赖数据匹配:当前大模型倾向于依赖数据匹配,并非真正理解问题。即便在GPT-4等优异模型上也会出现复杂问题回答失败的现象。
- 多步逻辑化推理能力不足:大模型在跨多个逻辑步骤的问题中显现出推理能力的不足,无法完全理解任务的多层次结构。
- 抗干扰能力不足:在数据中加入无关信息时,大模型无法有效识别干扰项,这也对AI系统的可靠性提出了挑战。
4.2 未来的改进方向
苹果团队的研究暗示,通过简单堆积数据和参数并不能解决大模型的推理缺陷。Gary Marcus等学者建议,将神经网络和符号逻辑相结合,通过引入变量与操作之间的抽象关系来提升模型的逻辑化能力。这可能是未来人工智能领域的重要研究方向之一。
5. 总结
苹果的GSM-Symbolic论文揭示了大模型在数学推理和逻辑分析方面的核心缺陷,指出了其模式匹配的特性和逻辑推理的不足。尽管GPT-4和其他大模型表现出惊人的模式匹配能力,但它们的推理本质仍远未达到人类智能的水准。未来,如何结合神经符号系统、提升模型的逻辑化推理能力,或将是人工智能发展的关键课题。