论文略读：MathScale: Scaling Instruction Tuning for Mathematical Reasoning - 代码天地

论文略读：MathScale: Scaling Instruction Tuning for Mathematical Reasoning

物联网 2024-11-01 14:12:58 阅读次数: 0

ICML 2024

1 背景

LLM 能否解决数学问题是一个热点，现在有一些方法通过指令调整（Instruction Tuning）在一定程度上提升LLMs的数学解决能力
但现有的数学推理数据集规模有限，这限制了模型能力的进一步提升
- 目前方法尝试使用先进的LLMs（如GPT-3.5和GPT-4）来扩充现有的高质量数学数据集
- 但这些方法生成的新例子与原始训练集中的例子相似度过高，限制了它们在生成大规模数学数据集方面的能力
——>本文提出了一种名为MathScale的概念简单且可扩展的方法，来生成高质量数学推理数据集
与此同时，论文构建了MWPBENCH
- 包含十个数据集的数学文字问题（Math Word Problems）基准测试集
- 涵盖了从小学到大学以及竞赛级别的数学问题

2 MathScale

猜你喜欢

转载自blog.csdn.net/qq_40206371/article/details/143394905

论文略读：MathScale: Scaling Instruction Tuning for Mathematical Reasoning

Instruction Tuning（FLAN、instructGPT、chatGPT）

多模态大语言模型 LlaVA 论文解读：Visual Instruction Tuning

【论文精读】InstructUIE: Multi-task Instruction Tuning for Unified Information Extraction

LLMs指令微调 Instruction fine-tuning

LLM：Prompt-Tuning/Instruction-tuning微调新范式

Prompt-Tuning、Instruction-Tuning、prefix tuning的区别；Instruction-Tuning（指令调优），和Prefix-Tuning（前缀调优）相关的例子

instruction

【LLM系列之FLAN-T5/PaLM】Scaling Instruction-Finetuned Language Models

Prefix Tuning论文解读

论文解读：Temporal Relational Reasoning in Videos

Reasoning-RCNN 论文笔记

LLMs多任务指令微调Multi-task instruction fine-tuning

Paper：《Instruction Tuning for Large Language Models: A Survey—大型语言模型的指令调优的综述》翻译与解读

大语言模型的指令微调（Instruction Tuning）最全综述：从数据集到技术全解析

解密Prompt系列4. 升级Instruction Tuning：Flan/T0/InstructGPT/TKInstruct

微调大模型（Finetuning Large Language Models）—Instruction_tuning（三）

指令微调（Instruction Tuning）可以实现大模型权重参数的调整

论文略读：MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning

论文笔记：Scaling Memcache at Facebook

论文阅读：Elastic Scaling of Stateful Network Functions

【论文阅读】Scaling Laws for Neural Language Models

Prefix-Tuning论文解读

Prefix-Tuning 论文概述

P-tuning论文概述

翻译: LLM是如何遵循指示的：指示调整和人类反馈增强学习RLHF How LLMs follow instructions: Instruction tuning and RLHF

Iterative Visual Reasoning Beyond Convolutions论文笔记

论文分享 - Reasoning with Memory Augmented Neural Networks for Language Comprehension

论文阅读笔记—Reasoning on Knowledge Graphs with Debate Dynamics（AAAI，2020）

【论文笔记】Iterative Visual Reasoning Beyond Convolutions

今日推荐

周排行

3.5星|津巴多《时间的悖论》：未来导向的人更有可能取得个人的成功，但帮助他人的可能性更小

k8s无脑系列（二）-DNS服务搭建和访问

leetcode 26 从排序数组中删除重复项

Python Web 框架：Django、Flask 与 Tornado

中科院计算所研究员陈益强：越来越'聪明'的智能硬件

dotNET面试（二）

数据备份恢复

vue 路由知识点梳理及应用场景整理

ajax局部刷新流程

分段、分页&&内存碎片、外存碎片

每日归档

更多

2025-03-22(0)

2025-03-21(0)

2025-03-20(0)

2025-03-19(0)

2025-03-18(0)

2025-03-17(0)

2025-03-16(0)

2025-03-15(0)

2025-03-14(0)

2025-03-13(0)