大模型推理和部署框架vLLM

1.vLLM介绍

        vLLM 是一个创新的开源大语言模型(LLM)推理与服务引擎,旨在最大化内存使用效率并显著提高模型推理过程中的吞吐量。它引入了一种新的内存分配算法,称为 PagedAttention,以克服传统LLM推理系统中存在的效率低下问题。

vLLM的主要优势:
  • 高吞吐量: vLLM 与 HuggingFace Transformers 相比,吞吐量可以提高 24 倍,与 HuggingFace Text Generation Inference (TGI) 相比,可以提高 3.5 倍。这种吞吐量的提升使推理过程更快、更具扩展性,对于处理大规模语言模型部署的企业至关重要。

  • 改进的内存使用: 传统的LLM推理引擎通常浪费大约 60% 至 80% 的 Key-Value 缓存(KV-Cache),该缓存负责在语言模型推理期间存储内存。与之相比,vLLM 能够将内存浪费减少到不足 4%,确保几乎最优的内存使用效率。

  • 减少 GPU 需求: 由于其高效的内存管理,vLLM 能够减少所需

猜你喜欢

转载自blog.csdn.net/qq_52053775/article/details/142327712