在昇腾GPU上部署DeepSeek大模型与OpenWebUI：从零到生产的完整指南

编程语言 2025-04-11 22:17:24 阅读次数: 0

引言

随着国产AI芯片的快速发展，昇腾（Ascend）系列GPU凭借其高性能和兼容性，逐渐成为大模型部署的重要选择。本文将以昇腾300i为例，手把手教你如何部署DeepSeek大模型，并搭配OpenWebUI构建交互式界面。无论你是AI开发者还是企业运维，都能通过本文快速搭建生产级AI服务。

一、为什么选择昇腾GPU？

 信创要求，现在N卡其实便宜了

二、环境准备

1. 基础配置检查

# 确认操作系统版本（推荐OpenEuler 22.03）
cat /etc/os-release

# 检查NPU驱动状态（关键！）
npu-smi info
# 预期输出：能看到NPU设备列表和驱动版本（≥6.0.RC3）

2. 安装依赖工具

# 禁用防火墙
systemctl stop firewalld && systemctl disable firewalld

# 安装开发工具链
yum install -y git gcc cmake python3-devel

三、Docker环境配置

1. 配置Docker镜像加速

# 创建配置文件
vi > /etc/docker/daemon.json <<EOF
{
  "registry-mirrors": [
        "https://docker.1ms.run",
        "https://docker.xuanyuan.me",

  "data-root": "/data/docker"  # 建议挂载至大容量存储
}
EOF

# 重启生效
systemctl restart docker

2. 安装昇腾容器插件

wget https://ascend-repo.obs.cn-east-2.myhuaweicloud.com/Ascend-Docker-Runtime/6.0.RC3/Ascend-docker-runtime_6.0.RC3_linux-aarch64.run
chmod +x Ascend-docker-runtime_6.0.RC3_linux-aarch64.run
./Ascend-docker-runtime_6.0.RC3_linux-aarch64.run --install

四、部署GPUSTACK（NPU管理平台）

1. 启动管理服务

docker run -d \
  --name=gpustack \
  -p 80:80 \
  -v /usr/local/Ascend/driver:/usr/local/Ascend/driver:ro \
  --device=/dev/davinci0 \
  swr.cn-north-4.myhuaweicloud.com/ddn-k8s/docker.io/gpustack/gpustack:latest-npu

关键参数说明：

--device：挂载NPU设备，多个设备可重复添加
-v /usr/local/Ascend/driver：只读挂载驱动，避免容器内版本冲突

2. 登录管理界面

访问 http://<服务器IP>:80，使用以下命令获取初始密码：

docker exec gpustack cat /var/lib/gpustack/initial_admin_password

五、DeepSeek模型部署实战

1. 模型准备

# 创建模型目录
mkdir -p /data/models/deepseek-14b && cd /data/models

# 下载模型文件（以DeepSeek-R1-Distill-Qwen-14B为例）
wget https://modelscope.cn/api/v1/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-14B/repo?Revision=master -O deepseek-14b.tar.gz
tar zxvf deepseek-14b.tar.gz

2. 启动vLLM推理服务

docker run -d \
  --name=deepseek-inference \
  --runtime=ascend \  # 指定昇腾运行时
  -p 23333:8000 \
  -v /data/models/deepseek-14b:/model \
  swr.cn-south-1.myhuaweicloud.com/ascendhub/vllm-ascend:0.7.3 \
  --model=/model \
  --tensor-parallel-size=1 \
  --max-model-len=4096

性能调优建议：

调整--max-model-len控制显存占用
添加--quantization awq启用4bit量化

六、集成OpenWebUI

1. 部署Web界面

docker run -d \
  --name=openwebui \
  -p 3000:8080 \
  -v /data/openwebui:/app/backend/data \
  -e OPENAI_API_BASE_URL=http://host.docker.internal:23333/v1 \
  ghcr.io/open-webui/open-webui:main

2. 界面配置

访问 http://<服务器IP>:3000
进入设置 → 模型 → 添加：
- 模型名称：DeepSeek-R1-Distill-Qwen-14B
- API Base URL：http://host.docker.internal:23333/v1
- API Key：留空

七、性能监控与优化

1. 实时监控命令

# 查看NPU利用率
npu-smi info -t training -i 0 -c

# 查看服务日志
docker logs -f deepseek-inference --tail 100

八、常见问题排查

Q1：容器启动报错`npu-smi command not found`

原因：驱动未正确挂载
解决：

docker run -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi ... # 添加挂载

Q2：模型加载缓慢

优化方案：

# 启用模型缓存
docker run -e VLLM_USE_MODELSCOPE=true ...

结语

通过本文，你已成功在昇腾GPU上构建了从模型推理到Web交互的完整链路。这种方案不仅适用于DeepSeek，也可快速迁移到其他开源模型（如Qwen、ChatGLM）。随着昇腾生态的不断完善，国产AI芯片正在为开发者打开新的可能性。

希望这篇指南能为你的AI应用部署提供实用参考！如有疑问，欢迎在评论区交流讨论。

猜你喜欢

转载自blog.csdn.net/weixin_45631123/article/details/146113465

在昇腾GPU上部署DeepSeek大模型与OpenWebUI：从零到生产的完整指南

如何使用 Docker 部署大模型：从零到生产的完整指南

【大模型部署实战】VLLM+OpenWebUI实现DeepSeek模型部署

华为昇腾服务器部署deepseek的坑

【大模型】 DeepSeek不同版本部署的GPU资源需求与性能计算指南

【直播】基于昇腾的大模型创新应用和实践指南

昇腾CANN 7.0 黑科技：大模型推理部署技术解密

三步实现BERT模型迁移部署到昇腾

基于Pytorch+昇腾NPU开发大模型指导

大模型优化技术在昇腾上的应用与落

新书推荐：《DeepSeek大模型实战指南：架构、部署与应用》

【大模型实战】使用Ollama+OpenWebUI实现本地Deepseek R1模型搭建

【干货教程】在Windows计算机部署DeepSeek大模型，给在实验室无外网的同事们用（基于Ollama和OpenWebUI）

从大模型性能优化到DeepSeek部署｜得物技术

windows+ollama+deepseek+openwebui快速实现本地部署Deepseek

在华为昇腾服务器Ascend 300I Pro 310P芯片（ 310P3）安装QWQ32B大模型以及deepseek蒸馏版！

手把手教你用聆思CSK6大模型开发板接入硅基流动华为昇腾满血版DeepSeek

昇腾CANN 8.0正式发布，多项核心技术引领大模型原生创新

玩转Docker：Lsky pro图床+私有化部署大模型(Ollama+Openwebui)

昇腾

本地用ollama部署DeepSeek大模型

DeepSeek大模型的6种部署模式

昇腾携手OpenMMLab，支持海量算法仓库的昇腾AI推理部署

ollama部署deepseek之后，保持模型永远被加载在GPU之中！

深度解析：基于DeepSeek的跨境支付汇率波动对冲模型实战指南——从原理到部署的完整实现

Kubernetes（k8s）生产级实践指南从部署到核心应用完整版

昇腾AI与“紫东.太初”赋能法律服务，多模态大模型迈向“多专多能”

大模型“暴力计算”时代，华为昇腾如何突围算力之困？ | WAIC2023

华为推出全新架构昇腾 AI 计算集群，可支持超万亿参数大模型训练

玩转大语言模型——昇腾NPU驱动固件以及CANN的安装(教你如何使用官方社区安装)

今日推荐

Electron中的关于静态资源加载问题解决方案

《Cursor-AI编程》基础篇-界面指南

《Cursor-AI编程》基础篇-Tab代码智能补充

《Cursor-AI编程》基础篇-Composer功能详解

《Cursor-AI编程》基础篇-Chat功能详解

《Cursor-AI编程》进阶篇-自定义模型

《Cursor-AI编程》进阶篇-上下文详解

【大模型系列篇】最强检索增强技术GraphRAG基本原理详解

【大模型系列篇】基于Ollama和GraphRAG v2.0.0快速构建知识图谱

解释什么是迁移学习？在 CNN 中如何应用？（面试题200合集，高频、关键）

解释数据增强（Data Augmentation）的概念和方法（（面试题200合集，高频、关键））

揭秘大模型“魔法”：Function Calling 让 AI 不止会说，更能“做”！

周排行

ConfigurationClassParser类的parse方法源码解析

基础大讲堂-java 位运算符

ConsecutiveInteger判断给定的整数n能否表示成连续的m(m>1)个正整数之和

多项式问题之六——多项式快速幂

Spring Security技术栈开发企业级认证与授权（四）RESTful API服务异常处理

Linux基础命令---apachectl

MATLAB中的线性插值

Unity编辑器拓展之十七：NGUI ComponentSelector增加搜索框

SqlServer 备份还原教程

[Unity动画]01.

每日归档

2025-04-12(10529)

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)

2025-04-03(0)