大模型微调中遇到的问题集合

一、环境保存

大模型的各种框架，包大都属于测试版，稳定性不够好，所以安装环境是一个令人头疼的事情。

我们可以将安装好的环境导出为txt文件，到其他地方还原。

导出txt

pip freeze > requirements.txt #可能会丢失依赖包的版本号

# 或者
pip list --format=freeze> requirements.txt

生成requirements.txt，pip freeze会将当前环境下所有的安装包都进行生成,再进行安装的时候会全部安装很多没有的包.耗时耗力。

复现

pip install -r requirements.txt
#临时换源
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt

1、切换国内镜像源

# 切换阿里云镜像源
pip install deepseed  -i  http://mirrors.aliyun.com/pypi/simple/

2、autodl算力云学术加速

# autodl算力云学术加速
source /etc/network_turbo

# 初始化 Conda
conda init

# 重新加载 Bash 配置文件
source ~/.bashrc

# 激活名为 myenv 的环境
conda activate myenv

nvidia-smi
看当前的驱动是否正常

pip install nvitop
nvitop
查看设备信息，比如内存，gpu显存MEM,

nohup python -u aa.py &
后端运行python程序

top
查看服务器的资源
q 退出
kill -9 进程id
杀死进程

batch_size：值过小；尽量在15以上；

max_epochs：值过小；最好设置1000 。

max_length：值过小；根据数据集中每条数据的长度给一个最佳的最大值。

对话模版（prompt_template）不一致。

训练的数据集input数据需要提供各种话术。可参考LLaMA Factory提供的默认的一个identity.json数据集。

-----------

持续更新中