TensorRT + int8 Официальный форум интересное обсуждение резюме

Недавнее исследование, проведенное NVIDIA ускорения графики и калибровка TensorRT INT8, встречается много проблем, внимательно изучить на стадии подготовки. INT8 теория калибровки была введена во многих форумах, здесь чувствует интересную дискуссию, записанную на официальном форуме, легко отправлять читать.

1, сам определенный слой оптимизация int8

INT8 плагин Layer TensorRT
О программе INT8 использования модели!
Официальный разработчик сказал только поддерживает четыре формата, в будущем будет добавить больше возможностей, int8 не сказал , что они могли бы достичь оптимизации самоопределенную слоя.

2, точность обнаружения оптимизированной снижается int8

INT8 Калибровка не является точной ... См изображений дифф с и без
Пересчитать для A Обнаружить модель для int8, на производительности падает Лот
был найден для обнаружения сети через INT8 оптимизацию имеет различие, даже точность упадка, но официальный разработчик по YOLO тестов не думает этот вопрос и вместо энтропии калибратор для калибровки модели с унаследованным калибратором, помогут улучшить точность. Но , по словам официального документа заявления, наследство калибратор должен быть отброшен метод.

3, после оптимизации для повышения точности INT8

Анализ точности sampleInt8
был найден в эксперименте после INT8 оптимизации, повышения точности модели распознавания, а модель сама анализ может быть более облегающие процесс обучения, за счет оптимизации INT8 уменьшить степень более облегающие модели, так что тестовый набор в точность распознавания шоу улучшилось.

4, используя вопросы INT8 калибровки таблиц на разных устройствах

Может TensorRT INT8 CalibrationTable будет использование на другой аппаратной платформе?
Официальный ответ разработчика, оптимизированная калибровка таблицы , если вы используете ту же версию TensorRT метода является то же самое, если специальное упоминание после EntropyCalibrator2 5.1 (официальный документ о том , что этот метод требует DLA) может быть различной миграции платформы.
Файлы плана Do tensorRT портативны между различными
графическими процессорами , которые имеют тот же тип следует отметить , что TensorRT файл или осторожность на различных платформах, может появиться предупреждение!

5, int8 оптимизация fastrcnn

«Двигатель IS Buffer Full»
Образец официального пакет установка имеет fastrcnn, но нужно добавить плагин, это обсуждение августа 2018, и называет fastrcnn из INT8 преобразования кажется немного трудно смотреть на Марке.

6, после того, как проверки точности каждого слоя оптимизирована TensorRT

Как проверить точность слоя?
使用nvprof.

7, слой 0 выводится, сбой калибровки причиной int8

Калибровка INT8 неудачу , если выход одного слоя
равномерно нуль , если модель веса слоя всех 0 приведет к тому , выходному слою равна 0, что наводит на мысли int8 калибровка не удалась. Официальные разработчики считают это не общая модель рассуждения, предложенные изменения в модели отсеченных ветвей.

8, использование памяти модель TensorRT

TensorFlow / TRT с несколькими сессиями TF -
Динамическая INT8 ошибки распределения памяти двигателя официальными разработчики говорят TensorRT фон должен использовать всю память для построения оптимальной модели рассуждений, такие как память обозначенного TensorFlow не вступит в силу в TensorRT. И setMaxWorkSpace (Х) , чтобы произвести API определяет только размер механизма хранения.

9 ДЛЯ

DLA с Тесла , чтобы использовать как T4
DLA является установка элемент TensorRT, но есть официальная документация только Jetson AGX Xavier указывают на поддержку DLA. При этом было указано , что DLA используется только в мобильном связанном с продуктом, продукт настольных GPU без этого устройства.

10, большой BATCHSIZE может вывести TensorRT скорость обновления

Почему умозаключение SpeedUp возрастает с увеличением размера партии в tensorrt int8?
Официальный сказал разработчик большой BATCHSIZE более эффективное использование GPU, особенно использование кратного 32, такие как размер пакетного может V100, Т4 таких полные умножение матриц , используя собственную частоту ядра и полные графики на соединительном слое.

11, TensorRT не ускоряться никакого эффекта

См используя любые ускорения TensorRT Dont
TensorRT производительность ускорения будет зависеть от того , насколько оригинала заменить операции сети для оптимизации работы TensorRT для питона + TensorFlow можно рассматривать следующий код.

trt_engine_ops = len([1 for n in trt_graph.node if str(n.op)=='TRTEngineOp'])

Вечный момент _

Опубликовано 24 оригинальные статьи · вона похвала 8 · просмотров 20000 +

Частные письма относится