【大模型实战篇】对比包括QwQ-32B在内的不同推理模型的吞吐量表现

        因为项目对推理模型的性能有比较高的要求,因此对目前一些主流的推理模型做了对比,包括QwQ-32B、QwQ-32B-GPTQ-INT4、QwQ-32B-GPTQ-INT8、Light-R1-14B-DS进行了吞吐量的对比实验。

        实验采用A800机器,测试双卡部署以及四卡部署的模式,推理框架采用vllm,关于部署的细节参考《vllm本地部署阿里最新的QwQ-32B推理模型》。

        模型参数链接如下:

模型名称 参数链接
QwQ-32B https://www.modelscope.cn/models/Qwen/QwQ-32B/files
QwQ-32B-GPTQ-INT4 https://www.modelscope.cn/models/tclf90/qwq-32b-gptq-int4
QwQ-32B-GPTQ-INT8 https://www.modelscope.cn/models/tclf90/qwq-32b-gptq-int8
Light-R1-14B-DS https://www.modelscope.cn/models/360zhinao/Light-R1-14B-DS

        实验结果如下:

vllm部署 模型 prompt吞吐量(tokens/s)

generation吞吐量

(tokens/s)

双卡部署

QwQ-32B

392

38

QwQ-32B-gptq-int8

243

57

QwQ-32B-gptq-int4

310

75

Light-R1-14B-DS

391

47

四卡部署

QwQ-32B

368

59

QwQ-32B-gptq-int8

266

77

QwQ-32B-gptq-int4

393

78

Light-R1-14B-DS

391

62

   实验结论:

        QwQ-32B-gptq-int4在同等条件下,性能最优。当然在实际业务中,还需要评测效果准确度是否满足要求。

        另外,关于首响时间,也是 QwQ-32B-gptq-int4表现最好,当然也和实际的机器有关,需要根据具体情况做实际的评测。