清华版Chatgpt：chatglm-6B教程——如何从训练中确定最合适的学习率 - 代码天地

清华版Chatgpt：chatglm-6B教程——如何从训练中确定最合适的学习率

企业开发 2023-06-18 21:38:10 阅读次数: 0

我们在使用chatglm-6B的时候，总会遇到一个问题。即学习率如何确定。我们首先先看chatglm的两个训练用sh文件的学习率是如何确定的。

一、如何第一时间确定学习率
这是train.sh的LR
这是train_chat.sh的LR
我们可以看到在chatglm给的标准中，对于聊天的训练所默认的学习率是要小于训练广告词的，两者的区别在于，广告词有更多重合性质的prompt，而聊天更加发散。
所以在训练前你要自己评估，你给出来的训练内容内容的发散程度是否大，如果很发散，那么调小学习率，如何prompt很集中，那么可以在初期调一个相对比较大的学习率。
这个学习率可以以2e-2为标准，在5e-2和5e-3之间选择一个开始。

二、相对较好的学习率
我们一定要理解一个问题，学习率LR不是一个固定的值，或者一个绝对的值，而是一个相对较小的值。既然是相对较小，那么一定没法通过一次训练就能获得，这个数值至少要通过3次训练来确定。
每一次训练后，我们把loss值打印出来。loss值是应该呈反函数状态的。
我把3次训练的结果打印出来：
三次学习率走势
这三次的学习率从上到下依次是增大的，即蓝色>黄色＞绿色。
我们有两个点来判断，如果第三次（绿色）是最大的，那么就说明再增大学习率还有可能使loss变小，如果第一次（蓝色）是最大的，那么就说明再降低学习率还有可能使loss变小，如果中间黄色的是最大的，那么这个学习率是可以确定下来了。
单就这三条线而言，他们的斜率并不是缓慢变化的，这个斜率的变化在25以内的时候就突然放大了。而最理想的情况是，斜率是慢慢变小的。
所以在这个模型中，学习率还应该再往大调整。

三、什么是合适的学习率
学习率并不是越低越好，而是在0-1之间是比较好的。但是这个值在0.5到1之间是最好的，如果越趋近于0，则越可能形成过拟合（过拟合了就需要重新训练，调整训练集和测试集），如果大于1则结果可能不会太理想。

猜你喜欢

转载自blog.csdn.net/miaoxingjundada/article/details/130355146

清华版Chatgpt：chatglm-6B教程——如何从训练中确定最合适的学习率

如何使用chatglm-6b实现多卡训练

【ChatGLM】本地版ChatGPT ？6G显存即可轻松使用！ChatGLM-6B 清华开源模型本地部署教程

清华 ChatGLM-6B 中文对话模型部署简易教程

清华大学开源的chatGLM-6B部署实战

使用anaconda部署清华开源ChatGLM-6B

模型训练系列：1、用清华ChatGLM-6B模型部署自己的本地AI助手

【ChatGPT】预训练模型微调及其应用（ChatGLM-6B、duckduckgo_search、GPT在科研的应用等）

ChatGLM2-6B、ChatGLM-6B 模型训练自己数据集实战

学习实践ChatGLM-6B（部署+运行+微调）

一种平价的chatgpt实现方案，基于清华的 ChatGLM-6B + LoRA 进行finetune.（aigc大模型风口，校招找工作必备）

【ChatGLM-6B】清华开源的消费级显卡大语言模型，本地部署与测试

ChatGLM-6B 本地部署指南！

ChatGLM-6B微调与部署

ChatGLM-6B模型使用

【大模型】chatglm-6b的demo

ChatGLM-6B本地cpu部署

云端部署ChatGLM-6B

ChatGLM-6B 类似ChatGPT功能型对话大模型部署实践

ChatGLM-6B —— 80%替换ChatGPT的开源对话大模型介绍（GLM，General Language Model ）

类ChatGPT项目的部署与微调(下)：从ChatGLM-6b到ChatDoctor

国产开源类ChatGPT模型，ChatGLM-6b初步微调实验

深度学习实战38-基于清华ChatGLM-6b开源模型做体检报告解读任务，让体检报告解读变得轻松

chatglm-6B基础环境、模型下载、微调训练详细介绍

ChatGLM-6B 模型介绍及训练自己数据集实战

【大语言模型】使用ChatGLM-6B模型训练自己的数据集

LLM：ChatGLM-6B模型进行P-Tunning训练记录及参数讲解

【人工智能AI2.0】国产开源 ChatGPT: ChatGLM-6B 搭建属于你的永远免费的本地 ChatGPT

十分钟部署清华ChatGLM-6B，实测效果还可以~~（Linux版）

【官方教程】ChatGLM-6B 微调，最低只需 7GB 显存

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)