Ollama、vLLM和LMDeploy这三款主流大模型部署框架 - 代码天地

Ollama、vLLM和LMDeploy这三款主流大模型部署框架

企业开发 2025-04-11 22:37:55 阅读次数: 0

一、Ollama、vLLM 和 LMDeploy介绍

Ollama、vLLM 和 LMDeploy 都是与大语言模型相关的工具或框架，以下是它们的具体介绍：

Ollama
- 简介：一个轻量级的模型托管框架，可在本地环境中运行和管理 LLM 模型。基于 Go 语言开发，集成了模型管理与交互界面，采用 MIT 许可。
- 特点：安装部署极其简单，支持 Windows/macOS/Linux 全平台，最低配置 CPU（AVX2 指令集）+16GB 内存就能运行 7B 模型。原生支持 HuggingFace Transformers 格式，官方模型库丰富，提供 REST API 和命令行交互，方便用户使用。不过，它的性能有限，单次推理延迟约 50-200ms（7B 模型），吞吐量较低（10-20tokens/s），缺乏动态批处理，且不支持量化、多 GPU 并行等功能。
- 适用场景：适用于个人开发者测试、教育场景以及轻量应用，比如在 MacBook Pro（M3 芯片）等移动设备上调试，快速构建原型应用，或者在树莓派 5 + 外置 GPU 扩展坞等低功耗场景下使用。
vLLM
- 简介4：高效的大型语言模型推理和部署框架，由加州大学伯克利分校开发，采用 Apache 2.0 许可，以 Python/PyTorch 为基础，优化了显存管理与批处理。
- 特点：底层针对 GPU 做了大量优化，推理速度快，通过 PagedAttention 技术实现显存复用，吞吐量可达 500+tokens/s（RTX 4090），并支持动态批处理，能够处理高并发请求。支持的上下文长度更长，适配长文本输入优化，性能更好，还支持多种主流语言模型架构，与 OpenAI 的 API 兼容。但它依赖 Linux/CUDA，Windows 支持不完善，非 Hugging Face 格式的模型需额外适配，并且强制要求 NVIDIA GPU（Ampere 架构起，24GB + 显存），不过支持多卡并行（NVLink࿰

猜你喜欢

转载自blog.csdn.net/puzi0315/article/details/146470081

Ollama、vLLM和LMDeploy这三款主流大模型部署框架

大模型推理和部署框架vLLM

【AI部署】Ollama与vLLM深度对比：大模型部署框架的技术演进与实践指南

LMDeploy 大模型推理框架介绍和实践

【模型部署】大模型部署工具对比：SGLang, Ollama, VLLM, LLaMA.cpp如何选择？

【AI实战】大模型 LLM 部署推理框架的 vLLM 应用

大模型推理加速框架vllm部署的实战方案

使用vLLM部署大模型

大模型框架汇总：大模型框架Ollama、大模型框架vLLM、大模型框架LightLLM、大模型框架llama.cpp、大模型框架LocalAI、大模型框架veGiantModel

122K star！推荐一款AI开源神器、支持本地轻松部署多款主流AI大模型：Ollama

InternStudio大模型之路（十三）：LMDeploy 量化部署实践

【大语言模型推理框架】VLLM

三大主流框架

本地用ollama部署DeepSeek大模型

Ollama教程与大模型本地部署指南

Ollama+Docker部署本地的大模型

Ollama本地部署大模型及应用

玩转大语言模型——使用langchain和Ollama本地部署大语言模型

五、AIGC大模型_05模型的vLLM部署与LangChain调用

win：Ollama安装和大模型的集成

Java三大主流框架

三大主流框架Hibernate、Struts和Spring优缺点

全面掌控大模型：MaxKB与Ollama的高效本地部署策略

Ollama + WebUI本地化部署大模型

ollama+open-webui，本地部署自己的大模型

Ollama部署700亿参数大模型Llama3

大模型本地化部署（Ollama + Open-WebUI）

Ollama本地部署大模型（Mac M1 ）

【大模型部署实战】VLLM+OpenWebUI实现DeepSeek模型部署

前端三大主流框架的区别（三）

今日推荐

Electron中的关于静态资源加载问题解决方案

《Cursor-AI编程》基础篇-界面指南

《Cursor-AI编程》基础篇-Tab代码智能补充

《Cursor-AI编程》基础篇-Composer功能详解

《Cursor-AI编程》基础篇-Chat功能详解

《Cursor-AI编程》进阶篇-自定义模型

《Cursor-AI编程》进阶篇-上下文详解

【大模型系列篇】最强检索增强技术GraphRAG基本原理详解

【大模型系列篇】基于Ollama和GraphRAG v2.0.0快速构建知识图谱

解释什么是迁移学习？在 CNN 中如何应用？（面试题200合集，高频、关键）

解释数据增强（Data Augmentation）的概念和方法（（面试题200合集，高频、关键））

揭秘大模型“魔法”：Function Calling 让 AI 不止会说，更能“做”！

周排行

ConfigurationClassParser类的parse方法源码解析

基础大讲堂-java 位运算符

ConsecutiveInteger判断给定的整数n能否表示成连续的m(m>1)个正整数之和

多项式问题之六——多项式快速幂

Spring Security技术栈开发企业级认证与授权（四）RESTful API服务异常处理

Linux基础命令---apachectl

MATLAB中的线性插值

Unity编辑器拓展之十七：NGUI ComponentSelector增加搜索框

SqlServer 备份还原教程

[Unity动画]01.

每日归档

更多

2025-04-12(10529)

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)

2025-04-03(0)