LLM入门课#03-指令微调和模型评估 - 代码天地

LLM入门课#03-指令微调和模型评估

企业开发 2025-04-09 18:10:24 阅读次数: 0

LLM入门课#03-指令微调和模型评估

提示词工程可以在不使用额外训练的基础上优化模型，之后可以使用lora、PEFT等模型来完成微调。

动机：使用提示词来完成模型的推理将会让你的案例占用大量的提示词的空间，这样对于推理是不优化的，或者对于用户而言是不友好的，但是如果可以直接通过微调的方式从模型端增强模型的性能，将不会占用大量宝贵的提示词的空间。

通过指令微调的方式来完成模型的微调，微调的形式是提供一个提示词，然后给定输入和输出的内容，如下所示。

如果让模型全部的权重参数来进行训练，需要对耗费很大的资源。

准备数据

可以自己建立数据集或者是通过开发人员提供的数据集，比如amazon的大型产品评论数据集，使用类似的模版数据库可以帮助模型完成微调。在下面所示的案例中，其中review_body表示的就是原始的输入，后面的则是不同任务下的输出，包括分类任务、文本生成任务、以及文本总结的任务。

划分数据集进行训练

微调带来的问题-灾难性遗忘

通过微调可以在单一的微调的任务上带了不错的性能提升，但是由于使用了全面微调的方式，模型的权重参数发生了变化，所以导致模型在单一的任务上可以表现了优秀的性能，但是会降低模型在其他任务删的性能，少量微调。第一种是微调的过程中添加有其他的任务，好比练习投篮的时候你也得记得没事运球一下。另外一种是保持网路的主干不变，只是为其他的用于下游任务的参数上进行调试。

多任务指令微调

在训练的时候加入多个任务的数据来完成微调，缺点是需要的数据量比较大。

FLAN是一个指令微调的模型

这里是模型所使用到的数据集。

模型评估

对于计算机视觉的任务而言，比如分类任务，可以通过acc指标快速衡量模型是否准确，但是对于文本而言，可能因为一个词的差别整个句子的意义就发生了很大的变化，比如下面的案例。

这个时候有两个常用的指标来衡量文本生成的效果。

首先第一个是rouge分数，主要用来衡量两个句子之间的匹配程度，简单来理解，即使生成的里面有对应的文本里面的就行。其中1表示的就是1 gram.2 表示的就是bigram，如果是n则表示的是n gram。

但是有的时候会产生比较拉的结果，比如里面出现了一个not，但是得分还是一致的。

如果这个时候变成了l。则是用来寻找最长匹配的子序列。

但是这个评价是不公平的，比如下面的句子，他就是一个复读机，但是他也匹配了4次。

bleu分数如下，在huggingface的库中可以直接进行调用。

对于通用的大语言模型，大家设计了一系列的benchmark用来衡量模型的性能，如下所示。

猜你喜欢

转载自blog.csdn.net/ECHOSON/article/details/146233620

LLM入门课#03-指令微调和模型评估

LLM入门课#04-大模型的微调技术

【LLM大模型】模型和指令微调方法

[NLP]LLM---大模型指令微调中的“Prompt”

【LLM系列之指令微调】长话短说大模型指令微调的“Prompt”

大模型入门2: 指令微调

LLM大模型从入门到精通（4）--LLM大模型的预训练和微调

LLM模型微调方法总结

大语言模型微调和PEFT高效微调

LLM大模型从入门到精通（2）--LLM模型的评估指标

GPT-LLM-Trainer：如何使用自己的数据轻松快速地微调和训练LLM

LLM入门课#02

【LLM】语言模型微调 fine-tune

【LLM】Prompt tuning大模型微调实战

大模型LLM的微调技术：LoRA

03-数据模型

LORA大模型加速微调和训练算法

使用 Amazon SageMaker 微调和部署 ChatGLM 模型

【AWS系列】使用 Amazon SageMaker 微调和部署 ChatGLM 模型

LLaMA Factory对大模型微调和导出量化操作

机器学习/深度学习入门：微调和深度学习的关系

HTML入门03-表单

【Dart】入门03-异常

[AI医学] 领域指令微调样本生成框架OpenGPT与医疗健康大模型NHS-LLM

Vue 知识整理—03-指令3

【LLM】self-instruct 构建指令微调数据集

如何评估大型语言模型（LLM）？

大语言模型（LLM）评估综述

LLM：预训练语言模型的评估

LLM - 大模型评估指标之 ROUGE

今日推荐

Electron中的关于静态资源加载问题解决方案

《Cursor-AI编程》基础篇-界面指南

《Cursor-AI编程》基础篇-Tab代码智能补充

《Cursor-AI编程》基础篇-Composer功能详解

《Cursor-AI编程》基础篇-Chat功能详解

《Cursor-AI编程》进阶篇-自定义模型

《Cursor-AI编程》进阶篇-上下文详解

【大模型系列篇】最强检索增强技术GraphRAG基本原理详解

【大模型系列篇】基于Ollama和GraphRAG v2.0.0快速构建知识图谱

解释什么是迁移学习？在 CNN 中如何应用？（面试题200合集，高频、关键）

解释数据增强（Data Augmentation）的概念和方法（（面试题200合集，高频、关键））

揭秘大模型“魔法”：Function Calling 让 AI 不止会说，更能“做”！

周排行

集成学习——LightGBM原理理解

java复制pdf并且往pdf文件中添加内容

DRF的解析器和渲染器 DRF的解析器和渲染器

pytest以函数形式的测试用例

CSS3 边框

C语言编程经典案例，三种方法求水仙花数（附完整代码）

算法题（313）

css如何让背景透明，文字不透明

linux下网络程序遭遇SIGPIPE的解决（转）

用xposed Hook框架Hook 安卓apk的按钮Id

每日归档

更多

2025-04-13(999)

2025-04-12(10529)

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)