【大模型】性能测试概述 企业开发 2025-04-09 19:05 0 阅读 目录 ■ 总体策略 ■ TTFT (Time To First Token) ■ Prefill ■ Decode ■ 数据精度 ■ DRAM ■ 总结 同步GPU的意义? 根据测试类型进行处理 ■ 示例 1 Prefill阶段 2 模型文件大小 3 吞吐量 4 内存占用监控 5 TTFT、Prefill、Decode延迟测量 在对使用Transformer模型系统进行性能测试时,关注的重点通常包括延时、吞吐量、数据精度以及硬件资源消耗等方面。 猜你喜欢