TensorRT笔记(11)使用量化网络

10.使用量化网络

量化网络由显式量化反量化节点组成,以便将张量从FP32转换为INT8,反之亦然。
NVIDIA®TensorRT™支持带有QuantizeLinearDequantizeLinear节点的量化ONNX模型。
量化张量x

y = saturate((x / y_scale) + y_zero_point), where y ∈ [-128, 127]

消除张量x

y = (x - x_zero_point) * x_scale

TensorRT仅支持[-128,127]范围内的INT8激活和[-127࿰

猜你喜欢

转载自blog.csdn.net/qq_33287871/article/details/113788834
今日推荐