DeepSeek-R1火了之后,Ai老板部署需求大大提升,抛开效果不谈,五件套易用性和灵活性相比VLLM大大提升,门槛较低,但是效果不言而喻。
以下部署全部以docker方式进行,因为太方便了,但同时坑很多,请做好心理准备
喜欢折腾的同学可以按照下面教程进行部署,我也是被逼无奈
请杯子里面装满水,原地坐牢,不出意外的话就马上出意外了,一个BUG一支烟
Xinference部署
Xorbits Inference (Xinference) 是一个开源平台,用于简化各种 AI 模型的运行和集成。借助 Xinference,您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理,并创建强大的 AI 应用。
项目地址:https://github.com/xorbitsai/inference#/
文档地址:https://inference.readthedocs.io/zh-cn/latest/#/
docker run \
--name xinference \
-d \
-p 9997:9997 \
-e XINFERENCE_HOME=/data \
-v $(pwd):/data \
--gpus all \
xprobe/xinference:latest \
xinference-local -H 0.0.0.0
docker run
- 启动一个新的Docker容器--name xinference
- 将容器命名为"xinference"-d
- 以分离(后台)模式运行容器-p 9997:9997
- 将容器的9997端口映射到主机的9997端口-e XINFERENCE_HOME=/data
- 设置环境变量,指定Xinference的主目录为容器内的/data-v $(pwd):/data
- 将当前工作目录挂载到容器内的/data目录,实现数据持久化--gpus all
- 允许容器使用主机上的所有GPU资源xprobe/xinference:latest
- 使用最新版本的xprobe/xinference镜像xinference-local -H 0.0.0.0
- 在容器内运行xinference-local命令,并设置主机地址为0.0.0.0(允许从任何IP地址访问)
部署成功之后可以直接访问:http://localhost:9997
部署一个reranker
选择从modelscope下载速度比较快