大模型微调中遇到的问题集合

一、环境保存

大模型的各种框架,包大都属于测试版,稳定性不够好,所以安装环境是一个令人头疼的事情。

我们可以将安装好的环境导出为txt文件,到其他地方还原。

导出txt

pip freeze > requirements.txt #可能会丢失依赖包的版本号

# 或者
pip list --format=freeze> requirements.txt

生成requirements.txt,pip freeze会将当前环境下所有的安装包都进行生成,再进行安装的时候会全部安装很多没有的包.耗时耗力。

复现

pip install -r requirements.txt
#临时换源
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt

conda环境导出环境内的包(requirements.txt)_conda requirements.txt-CSDN博客

二、pip 安装包慢

1、切换国内镜像源

# 切换阿里云镜像源
pip install deepseed  -i  http://mirrors.aliyun.com/pypi/simple/

https://developer.aliyun.com/article/1327560

2、autodl算力云学术加速

# autodl算力云学术加速
source /etc/network_turbo

三、conda的常见问题

1、CondaError: Run 'conda init' before 'conda activate'

# 初始化 Conda
conda init

# 重新加载 Bash 配置文件
source ~/.bashrc

# 激活名为 myenv 的环境
conda activate myenv

三、查看显卡运行情况

nvidia-smi   
看当前的驱动是否正常

pip install nvitop 
nvitop
查看设备信息,比如内存,gpu显存MEM,


nohup python -u aa.py &
后端运行python程序

top
查看服务器的资源
q 退出
kill -9 进程id
杀死进程

四、微调效果不理想

1、微调参数问题

batch_size:值过小;尽量在15以上;

max_epochs:值过小;最好设置1000 。

max_length:值过小 ;根据数据集中每条数据的长度给一个最佳的最大值。

2、在微调工具中验证有效果,但是在vLLM等推理框架中效果很差

对话模版(prompt_template)不一致。

3、泛化能力弱

训练的数据集input数据需要提供各种话术。可参考LLaMA Factory提供的默认的一个identity.json数据集。

-----------

持续更新中