Ollama、vLLM和LMDeploy这三款主流大模型部署框架

一、Ollama、vLLM 和 LMDeploy介绍

Ollama、vLLM 和 LMDeploy 都是与大语言模型相关的工具或框架,以下是它们的具体介绍:

  • Ollama

    • 简介:一个轻量级的模型托管框架,可在本地环境中运行和管理 LLM 模型。基于 Go 语言开发,集成了模型管理与交互界面,采用 MIT 许可。
    • 特点:安装部署极其简单,支持 Windows/macOS/Linux 全平台,最低配置 CPU(AVX2 指令集)+16GB 内存就能运行 7B 模型。原生支持 HuggingFace Transformers 格式,官方模型库丰富,提供 REST API 和命令行交互,方便用户使用。不过,它的性能有限,单次推理延迟约 50-200ms(7B 模型),吞吐量较低(10-20tokens/s),缺乏动态批处理,且不支持量化、多 GPU 并行等功能。
    • 适用场景:适用于个人开发者测试、教育场景以及轻量应用,比如在 MacBook Pro(M3 芯片)等移动设备上调试,快速构建原型应用,或者在树莓派 5 + 外置 GPU 扩展坞等低功耗场景下使用。
  • vLLM

    • 简介4:高效的大型语言模型推理和部署框架,由加州大学伯克利分校开发,采用 Apache 2.0 许可,以 Python/PyTorch 为基础,优化了显存管理与批处理。
    • 特点:底层针对 GPU 做了大量优化,推理速度快,通过 PagedAttention 技术实现显存复用,吞吐量可达 500+tokens/s(RTX 4090),并支持动态批处理,能够处理高并发请求。支持的上下文长度更长,适配长文本输入优化,性能更好,还支持多种主流语言模型架构,与 OpenAI 的 API 兼容。但它依赖 Linux/CUDA,Windows 支持不完善,非 Hugging Face 格式的模型需额外适配,并且强制要求 NVIDIA GPU(Ampere 架构起,24GB + 显存),不过支持多卡并行(NVLink࿰

猜你喜欢

转载自blog.csdn.net/puzi0315/article/details/146470081
今日推荐