xinference服务器部署下载启动qwen2.5各种版本模型

1.激活我们之前的虚拟环境
conda activate xfc_text
2.更新到v0.15.2
pip install 'xinference==0.15.2’
更新前先停止之前的服务
lsof -i:9997 查询运行的端口
kill -9 50 终止占用端口
3.这里如果你一张显卡就CUDA_VISIBLE_DEVICES=0 xinference-local --host 0.0.0.0 --port 9997这样启动,多张显卡还跟以前一样xinference-local --host 0.0.0.0 --port 9997启动
4.启动后我们就可以下载各种版本的了
在这里插入图片描述

最后给大家科普一下各种推理引擎区别
llama.cpp适合低资源部署，不太能高并发，计算效率低
transformers，最普遍的兼容性，但是吞吐差
vllm 吞吐高，商用落地等广泛使用
sglang后起之秀，大有分vlm市场的架势
mlx在mac环境里用

PyTorch：一个流行的深度学习框架，提供动态计算图和灵活的模型构建，广泛用于研究和生产。
GPTQ：一种量化技术，用于在保持模型性能的同时减少模型大小和计算需求，特别针对大规模语言模型（如GPT）。
AWG（Adaptive Weight Granularity）：一种量化方法，通过自适应地调整权重的量化精度，以优化模型在特定硬件上的性能和效率。

猜你喜欢

目录

热门文章