1. pytorch quantization介绍
在实际开发过程中,单独开发量化的工具进行PTQ
或者QAT
量化,同时去适配TensorRT, onnxruntime,openvion等推理引擎。Pytorch
官方推出了量化工具
:Pytorch Quantization库,方便大家使用。
文档: pytorch-quantization’s documentation:https://docs.nvidia.com/deeplearning/tensorrt/pytorch-quantization-toolkit/docs/index.html
PyTorch Quantization
是一个工具包,用于训练和评估具有模拟量化的PyTorch模型。PyTorch Quantization API
支持将 PyTorch 模块自动转换为其量化版本。转换也可以使用 API 手动完成,这允许在不想量化所有模块的情况下进行部分量化。例如,一些层可能对量化比较敏感,对其不进行量化可提高任务精度。- PyTorch Quantization的量化模型可以
直接导出
到ONNX
,并由TensorRT
8.0或者更高版本导入进行