1.激活我们之前的虚拟环境
conda activate xfc_text
2.更新到v0.15.2
pip install 'xinference==0.15.2’
更新前先停止之前的服务
lsof -i:9997 查询运行的端口
kill -9 50 终止占用端口
3.这里如果你一张显卡就CUDA_VISIBLE_DEVICES=0 xinference-local --host 0.0.0.0 --port 9997这样启动,多张显卡还跟以前一样xinference-local --host 0.0.0.0 --port 9997启动
4.启动后我们就可以下载各种版本的了
最后给大家科普一下各种推理引擎区别
llama.cpp适合低资源部署,不太能高并发,计算效率低
transformers,最普遍的兼容性,但是吞吐差
vllm 吞吐高,商用落地等广泛使用
sglang后起之秀,大有分vlm市场的架势
mlx在mac环境里用
PyTorch:一个流行的深度学习框架,提供动态计算图和灵活的模型构建,广泛用于研究和生产。
GPTQ:一种量化技术,用于在保持模型性能的同时减少模型大小和计算需求,特别针对大规模语言模型(如GPT)。
AWG(Adaptive Weight Granularity):一种量化方法,通过自适应地调整权重的量化精度,以优化模型在特定硬件上的性能和效率。