因为项目对推理模型的性能有比较高的要求,因此对目前一些主流的推理模型做了对比,包括QwQ-32B、QwQ-32B-GPTQ-INT4、QwQ-32B-GPTQ-INT8、Light-R1-14B-DS进行了吞吐量的对比实验。
实验采用A800机器,测试双卡部署以及四卡部署的模式,推理框架采用vllm,关于部署的细节参考《vllm本地部署阿里最新的QwQ-32B推理模型》。
模型参数链接如下:
模型名称 | 参数链接 |
QwQ-32B | https://www.modelscope.cn/models/Qwen/QwQ-32B/files |
QwQ-32B-GPTQ-INT4 | https://www.modelscope.cn/models/tclf90/qwq-32b-gptq-int4 |
QwQ-32B-GPTQ-INT8 | https://www.modelscope.cn/models/tclf90/qwq-32b-gptq-int8 |
Light-R1-14B-DS | https://www.modelscope.cn/models/360zhinao/Light-R1-14B-DS |
实验结果如下:
vllm部署 | 模型 | prompt吞吐量(tokens/s) | generation吞吐量 (tokens/s) |
双卡部署 | QwQ-32B |
392 |
38 |
QwQ-32B-gptq-int8 |
243 |
57 |
|
QwQ-32B-gptq-int4 |
310 |
75 |
|
Light-R1-14B-DS |
391 |
47 |
|
四卡部署 | QwQ-32B |
368 |
59 |
QwQ-32B-gptq-int8 |
266 |
77 |
|
QwQ-32B-gptq-int4 |
393 |
78 |
|
Light-R1-14B-DS |
391 |
62 |
实验结论:
QwQ-32B-gptq-int4在同等条件下,性能最优。当然在实际业务中,还需要评测效果准确度是否满足要求。
另外,关于首响时间,也是 QwQ-32B-gptq-int4表现最好,当然也和实际的机器有关,需要根据具体情况做实际的评测。