DeepSeek 部署指南 (使用 vLLM 本地部署)
本文档将指导您如何使用 vLLM 在本地部署 DeepSeek 语言模型。我们以 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
模型为例进行演示。
1、 安装 Python 环境
首先,您需要安装 Python 环境。
-
访问 Python 官网: https://www.python.org/
-
根据您的操作系统选择安装包: Python 官网提供 Windows, macOS 和 Linux 等操作系统的安装包。请根据您的电脑系统 (Windows 或 macOS) 下载并安装 Python。
-
推荐 Python 版本: 建议安装 Python 3.8 或更高版本。
-
安装后检查: 安装完成后,打开终端 (macOS/Linux) 或命令提示符 (Windows),输入以下命令并回车,检查 Python 是否安装成功以及版本信息:
python --version
pip --version
如果能正确显示 Python 和 pip 的版本号,则说明 Python 环境安装成功。
2、 下载 DeepSeek 模型
接下来,我们需要下载 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
模型。
-
模型地址: https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
-
安装 ModelScope 包: ModelScope 是一个模型中心,我们使用它来下载模型。在终端或命令提示符中执行以下命令安装 ModelScope Python 包:
pip install modelscope
-
下载模型: 使用
modelscope download
命令下载模型。 -
--model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
: 指定要下载的模型为deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
。 -
--local_dir your_local_path
: 指定模型下载后保存的本地路径。请将your_local_path
替换为您电脑上实际想要保存模型的路径。 例如,如果您想将模型保存在/home/user/models/deepseek-7b
目录下,则命令应为:
modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
--local_dir /home/user/models/deepseek-7b
-
执行下载命令: 在终端或命令提示符中执行上述
modelscope download
命令。 -
检查磁盘空间:
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
模型文件较大,请确保您的磁盘空间足够 (至少预留 15GB 以上空间)。 -
关于 ModelScope: ModelScope 是一个模型即服务的开源社区,您可以在上面找到各种预训练模型。您可能需要注册 ModelScope 账号才能下载某些模型,但
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
模型目前是公开的,可以直接下载。
3、 安装 vLLM
模型下载完成后,我们需要安装 vLLM。
-
vLLM 简介: vLLM (https://github.com/vllm-project/vllm) 是一个快速且易于使用的库,用于进行大型语言模型的推理和部署。
-
vLLM 文档: https://docs.vllm.ai/en/latest/ 您可以参考 vLLM 的官方文档获取更详细的信息。
-
使用虚拟环境 (推荐): 为了避免不同 Python 项目之间的包冲突,建议您使用 Python 虚拟环境来安装 vLLM。
-
创建虚拟环境: 在终端或命令提示符中,切换到您希望创建虚拟环境的目录,并执行以下命令:
python -m venv venv
这将在当前目录下创建一个名为 venv
的虚拟环境。
-
• 激活虚拟环境:
激活虚拟环境后,您的终端或命令提示符前会显示
(venv)
,表示您已进入虚拟环境。 -
macOS/Linux:
source venv/bin/activate
- Windows:
venv\Scripts\activate
- 安装 vLLM: 在激活的虚拟环境中,执行以下命令安装 vLLM:
pip install vllm
- 为什么使用虚拟环境: 虚拟环境可以隔离不同项目所需的 Python 包,避免版本冲突,保持环境的 чистота (纯净)。
4、 使用 vLLM 启动推理服务
现在,我们可以使用 vLLM 启动推理服务。
-
模型路径: 假设您在步骤 2 中将模型下载到
/home/user/models/deepseek-7b
目录。 -
启动命令示例:
CUDA_VISIBLE_DEVICES=0 vllm serve/home/user/models/deepseek-7b --port 8102
--max-model-len 16384
请根据您的实际情况修改以下参数:
-
CUDA_VISIBLE_DEVICES=0
: 指定使用的 GPU 设备 ID。0
表示使用第一块 GPU。如果您有多块 GPU,可以根据需要修改为其他 ID (例如CUDA_VISIBLE_DEVICES=1,2
使用 GPU 1 和 GPU 2)。如果您只有一块 GPU,通常使用0
即可。 -
/home/user/models/deepseek-7b
: 模型路径。 请替换为您在步骤 2 中模型实际保存的路径。 -
--port 8102
: 服务端口号。8102
是服务启动后监听的端口。您可以根据需要修改端口号,例如--port 8000
。在后续代码调用中,需要使用相同的端口号。 -
--max-model-len 16384
: 模型最大上下文长度。16384
表示模型处理的最大输入序列长度。您可以根据您的 GPU 显存大小和需求调整此参数。对于deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
模型,16384
是一个较大的上下文长度。您可以尝试减小此值以减少显存占用,例如--max-model-len 8192
或更小。 -
执行启动命令: 在终端或命令提示符中执行上述
vllm serve
命令。 -
检查服务是否启动成功: 观察终端输出,如果看到类似
INFO: Started server process
和INFO: Uvicorn running on ...
的信息,则表示 vLLM 服务启动成功。您也可以尝试访问http://localhost:8102/docs
(将8102
替换为您实际使用的端口号) 来查看 vLLM API 文档,验证服务是否正常运行。 -
注意 GPU 显存: 启动 vLLM 服务会占用 GPU 显存。请确保您的 GPU 显存足够运行模型。如果显存不足,可能会导致启动失败或运行缓慢。您可以尝试减小
--max-model-len
参数或使用更小规模的模型。 -
CUDA 相关问题: 如果启动 vLLM 服务时遇到 CUDA 相关错误,请检查您的 NVIDIA 驱动版本和 CUDA 环境是否正确安装。
5、 使用代码调用 vLLM 推理服务
服务启动后,我们可以使用代码调用 vLLM 提供的 API 进行推理。
- 代码示例 (Python): 以下代码示例展示了如何使用 Python 的
openai
库调用 vLLM 服务。
from openai import OpenAI
# 配置 OpenAI API 密钥和 Base URL 以连接 vLLM 服务
openai_api_key = "EMPTY"# vLLM 服务不需要 API 密钥,可以使用任意字符串
openai_api_base = "http://localhost:8102/v1"# 请确保端口号与您启动 vLLM 服务时设置的端口号一致
client = OpenAI(
api_key=openai_api_key,
base_url=openai_api_base,
)
prompt = "你好, 介绍下你自己吧"# 您想要模型回答的问题
response = client.completions.create(
model="deepseek-ai/DeepSeek-R1-Distill-Qwen-7B", # 请确保模型名称与您下载的模型一致
prompt=prompt,
stream=False# 设置为 False 表示不使用流式输出
)
print(response.choices[0].text) # 输出模型的回答内容
请根据您的实际情况修改以下代码:
-
openai_api_base = "http://localhost:8102/v1"
: 请确保端口号8102
与您在步骤 4 启动 vLLM 服务时设置的端口号一致。 如果您修改了端口号,这里也需要相应修改。 -
model="deepseek-ai/DeepSeek-R1-Distill-Qwen-7B"
: 请确保模型名称与您在步骤 2 下载的模型一致。 如果您下载的是其他 DeepSeek 模型 (例如 14B 版本),请将模型名称修改为相应的模型 ID,例如"deepseek-ai/DeepSeek-R1-Distill-Qwen-14B"
。 -
prompt = "你好, 介绍下你自己吧"
: 您可以将prompt
变量替换为您想要模型回答的实际问题。 -
运行代码: 保存以上 Python 代码到一个文件 (例如
inference_example.py
),然后在激活的虚拟环境中执行该 Python 文件:
python inference_example.py
-
检查输出: 如果一切正常,您将在终端或命令提示符中看到模型生成的回答。
-
关于
openai
库: 虽然我们使用了openai
库,但实际上我们调用的是 vLLM 提供的兼容 OpenAI API 接口的服务。openai_api_key
可以设置为任意字符串,因为 vLLM 服务本身不需要 API 密钥。 -
其他 API 客户端: 除了
openai
库,您也可以使用其他 HTTP 客户端库 (例如requests
) 直接向 vLLM 服务发送 API 请求。具体 API 请求格式可以参考 vLLM 官方文档或访问http://localhost:8102/docs
查看 API 文档。 -
错误处理: 如果在代码调用过程中遇到错误,请检查以下几点:
-
vLLM 服务是否已成功启动并正在运行。
-
openai_api_base
中的端口号是否与 vLLM 服务端口号一致。 -
model
参数指定的模型名称是否正确。 -
网络连接是否正常。
-
查看 vLLM 服务端的日志输出,可能会有更详细的错误信息。
如何学习AI大模型?
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
一、全套AGI大模型学习路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
四、AI大模型商业化落地方案
作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。