使用vLLM serve 为什么还是使用gpu0 ，怎么才能平均 - 代码天地

使用vLLM serve 为什么还是使用gpu0 ，怎么才能平均

企业开发 2024-11-04 17:14:44 阅读次数: 0

在使用 vLLM 时，如果你发现模型只在 GPU 0 上运行，而没有利用到所有的 GPU，这通常与配置和环境设置有关。以下是一些步骤，帮助你确保 vLLM 可以在多 GPU 上进行负载均衡：

1. 确保正确配置环境变量

确保你在启动 vLLM 之前设置了相关的环境变量，例如 CUDA_VISIBLE_DEVICES。这个变量可以限制 PyTorch 可见的 GPU 设备。例如，如果你想使用所有 GPU，可以设置：

export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7

2. 配置 vLLM 的 GPU 使用

vLLM 默认使用的是第一个 GPU。要让 vLLM 在多 GPU 上进行分布式处理，你需要指定使用的 GPU 设备。可以在启动命令中添加相关参数，例如：

vllm serve "defog/sqlcoder-70b-alpha" --num-gpus 8

3. 使用负载均衡

vLLM 支持负载均衡，但你可能需要配置一些参数，确保它能够在多个 GPU 之间分配工作。例如，你可以设置 --max-requests 和 --max-requests-per-gpu 参数，以确保请求能够平均分配到多个 GPU。

4. 分布式模式

如果使用的是分布式模式，确保你按照 vLLM 的文档配置了分布式训练。你可能需要在启动时指定分布式训练的相关参数，确保它能够利用多个 GPU。

5. 监控 GPU 使用情况

使用 nvidia-smi 工具监控 GPU 的使用情况，以确认模型是否正在利用其他 GPU。你可以在命令行中运行：

watch -n 1 nvidia-smi

6. 检查内存管理

如果模型因为内存不足只在 GPU 0 上运行，可以尝试调整内存分配设置，如环境变量 PYTORCH_CUDA_ALLOC_CONF。设置如下：

export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:256

这有助于减少 CUDA 内存的碎片化，允许模型更有效地使用多个 GPU。

7. 更新 vLLM

确保你使用的是最新版本的 vLLM，因为开发者可能已经修复了相关的多 GPU 支持问题。可以通过以下命令更新：

pip install --upgrade vllm

总结

通过以上步骤，你应该能够让 vLLM 在多 GPU 上平均负载。如果还有问题，建议查阅 vLLM 的官方文档或 GitHub 问题跟踪页面，以获取更多关于多 GPU 使用的建议和解决方案。

猜你喜欢

转载自blog.csdn.net/sunyuhua_keyboard/article/details/143469694

使用vLLM serve 为什么还是使用gpu0 ，怎么才能平均

serve 本地服务器包 serve 的介绍及使用

使用serve搭建本地服务器

vllm serve 设置加载conda环境并开机自启动

node的serve-favicon中间件的使用

webpack学习（六）：使用webpack-dev-serve

Express的serve-static中间件的使用之五问

使用x2go连接远程docker容器（x-serve图形界面）

使用node serve-static快速搭建测试请求服务器

open with live serve和 open in default brower使用的需要注意路径

npm run dev 还是 npm run serve

怎么才能在windows使用git命令

怎么使用 ConcurrentHashMap 才能是线程安全的?

【ChatGLM3】（9）：使用fastchat和vllm部署chatlgm3-6b模型，并简单的进行速度测试对比。vllm确实速度更快些。

【LLM】在PAI-DSW上使用 vLLM + Open-WebUI 部署Qwen2.5

vLLM~

使用Vue-cli脚手架创建项目时，使用npm run serve启动项目时，出现了报错，打不开项目，解决方案如下

Idea的Terminal怎么才能使用git命令?

vnc远程桌面怎么使用才能起到远程效果

开源模型应用落地-Qwen2.5-7B-Instruct与vllm实现离线推理-使用Lora权重（三）

70B的模型需要多少张A10的卡可以部署成功，如果使用vLLM

sqlserver 在做Sql Serve获取表中今天、昨天、本周、上周、本月、上月等数据，这时候就需要使用DATEDIFF()函数及GetDate()函数了。

Linux通信--构建进程通信的方案之管道（下）|使用匿名管道实现功能解耦|命名管道实现serve&client通信

为什么在优化算法中使用指数加权平均

ChatGPT到底是什么？它能做到什么？我们怎么才能使用到

npm run serve 出错

SQL Serve权限管理

SQL Serve 临时表

运行 `vue serve`报错

【Angular】08服务serve

今日推荐

周排行

阿里云服务器ECS开放8080端口

求正弦和余弦

链表倒数第n个节点

vue.js入门（13）实战demo

Java学习——day 15

My First Day in CSDN

Oracle11g 密码延迟认证导致library cache lock的情况分析

SAP ALV输出字段内容前增加空格

CloudFlare 推出免费 VPN 服务「Warp」，你懂的！

BUG(跑SLAM14-ch10)

每日归档

更多

2025-03-16(0)

2025-03-15(0)

2025-03-14(0)

2025-03-13(0)

2025-03-12(0)

2025-03-11(0)

2025-03-10(0)

2025-03-09(0)

2025-03-08(0)

2025-03-07(0)