论文略读:MathBench: Evaluating the Theory and Application Proficiency of LLMswith a Hierarchical Mathem

ACL 2024 findings

数学benchmark,涵盖从小学、初中、高中、大学不同难度,从基础算术题到高阶微积分、统计学、概率论等丰富类别的数学题目

  • 将数学内容分为三个主要的教育阶段和一个基础算术阶段 
  • 主要收集两类问题:
    • 理论知识问题
      • 检验模型对基本公式、理论及其推论的理解
    • 实际应用问题
      • 考察模型将理论知识应用于实践的能力

实验

猜你喜欢

转载自blog.csdn.net/qq_40206371/article/details/143247953