【大模型】性能测试概述

目录

■ 总体策略

■ TTFT (Time To First Token)

■ Prefill

■ Decode

■ 数据精度

■ DRAM

■ 总结

同步GPU的意义?

根据测试类型进行处理

■ 示例

1 Prefill阶段

2 模型文件大小

3 吞吐量

4 内存占用监控

5 TTFT、Prefill、Decode延迟测量



在对使用Transformer模型系统进行性能测试时,关注的重点通常包括延时吞吐量数据精度以及硬件资源消耗等方面。