day2:深度学习加速器

定制AI加速器设计

Vits AI Optimizer
剪枝、量化、定点化
XIR AI编译器
输入模型–翻译为XIR指令集–编译–执行
DPU
片上互联网、传感器接口
versal:各种API接口
IP核、工具链

DAC-SDC 2020冠军队伍分享

异构计算:
数据结构、操作系统、计算机体系结构
FPGA体系结构
软硬件协同设计
HLS高层次综合

ultra96
VGG
FPS:280
精度(IOU):0.731
功耗:4.2W
参数量:0.21M
计算量:184M
int4

自顶向下:模型构建、模型压缩
自底向下:模型构建、模型搜索

设计思路:
减少外储访问、提高并行度
模型压缩、低比特量化、放在片上

在这里插入图片描述
在这里插入图片描述
滑动窗口
line buffer

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
多核、负载均衡减少读图时间

HBM性能优化

memory typs: DDR3\DDR4\HBM

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/tanfuz/article/details/113543884