一、环境保存
大模型的各种框架,包大都属于测试版,稳定性不够好,所以安装环境是一个令人头疼的事情。
我们可以将安装好的环境导出为txt文件,到其他地方还原。
导出txt
pip freeze > requirements.txt #可能会丢失依赖包的版本号
# 或者
pip list --format=freeze> requirements.txt
生成requirements.txt,pip freeze会将当前环境下所有的安装包都进行生成,再进行安装的时候会全部安装很多没有的包.耗时耗力。
复现
pip install -r requirements.txt
#临时换源
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt
conda环境导出环境内的包(requirements.txt)_conda requirements.txt-CSDN博客
二、pip 安装包慢
1、切换国内镜像源
# 切换阿里云镜像源
pip install deepseed -i http://mirrors.aliyun.com/pypi/simple/
https://developer.aliyun.com/article/1327560
2、autodl算力云学术加速
# autodl算力云学术加速
source /etc/network_turbo
三、conda的常见问题
1、CondaError: Run 'conda init' before 'conda activate'
# 初始化 Conda
conda init
# 重新加载 Bash 配置文件
source ~/.bashrc
# 激活名为 myenv 的环境
conda activate myenv
三、查看显卡运行情况
nvidia-smi
看当前的驱动是否正常
pip install nvitop
nvitop
查看设备信息,比如内存,gpu显存MEM,
nohup python -u aa.py &
后端运行python程序
top
查看服务器的资源
q 退出
kill -9 进程id
杀死进程
四、微调效果不理想
1、微调参数问题
batch_size:值过小;尽量在15以上;
max_epochs:值过小;最好设置1000 。
max_length:值过小 ;根据数据集中每条数据的长度给一个最佳的最大值。
2、在微调工具中验证有效果,但是在vLLM等推理框架中效果很差
对话模版(prompt_template)不一致。
3、泛化能力弱
训练的数据集input数据需要提供各种话术。可参考LLaMA Factory提供的默认的一个identity.json数据集。
-----------
持续更新中