vllm报错out of memory解决

企业开发 2024-11-02 19:01

0 阅读

通过调低–gpu-memory-utilization的比例（默认为0.9），可以避免此问题

model = LLM(
    args.model_name_or_path,
    trust_remote_code=True,
    tensor_parallel_size=num_gpus,
    max_model_len = 2048,
    gpu_memory_utilization=0.8
)

猜你喜欢

目录

热门文章