目标检测发展方向

从目标检测发展到目标追踪
目标检测发展历史
模型综述
该部分内容是我阅读知乎时候发现很好自己稍微整理一下:
从近几年CVPR、ICCV、ECCV三大会议及NIPS上看深度学习已经成为研究计算机视觉的一种标准。主流的应用方向:人脸识别、图像识别、视频识别、行人检测、大规模场景识别等。
个人理解国内这些技术起源于亚研院,例如曹旭东、孙剑、何凯明。其中有人在亚研已经从事13年之久的技术与研究,这从实际线上看刚好接上了郑南宁老师曾经研究的模式识别在数字图像处理。刚好西交大和亚研院有个实习和研发的合作,暂时个人理解为国内图像的学派鼻祖。
深度学习中的物体检测与特点:
首先很多深度学习平台的算法或多或少的模型来自于opencv的数字图像处理基础,对于物体检测深度学习与传统方法的优缺点根据知乎总结如下:
一种基于滑动窗口的搜索框架,把一张图分成若干不同位置不同尺度的子图针对每一个子图使用分类器判别是非包含物体部分。传统方法对不同的物体需要设计不同的特征提取方法和分类算法。
人脸检测:Harr特征+Adaboosting的分类器
行人检测:HOG(histogram of gradients)+support Vector machine
普通物体:HOG+DPM(deformable part model)
深度学习方法:
图像识别比图像分类多一个回归的任务
RCNN、fastRCNN(Ross Girshick)、faster RCNN(任少卿、何凯明、孙剑、Ross)。使用CNN判别候选区域的类别(分类工作),使用预计算技术sharing feature map加速模型训练和物体检测速度,同时共享特征图提高计算ROI的速度(使用了RPN),其次采用全卷积海量滑动窗口分类检测物体。
RCNN系列算法检测步骤:第一步实现分类第二步实现回归,由于改进现在也很多端到端一步方法yolo,Unified,Real-Time Object Detection,Single Shot MultiBox Detector,特点物体检测样本正负极端不均衡,two-stage-cascade更好对应非均衡。所以端到端需要更多研究研究,不过最近很多方法,上海交大等研究模型进步很快。
法国Inria研究所的研究人员Nikos paragios描述原因及特点。
第一深度学习可以做的传统方法无法达到的高精度准确,工业上非常实用。
第二深度学习的算法通用性强fasterRCNN都可以用在检测人脸、行人、一般物体。
第三深度学习获取特征有很强的迁移能力,知识表示能力很强。例如ImageNet训练完很多场景都能用。
第四工程维护成本低,主要是矩阵乘和卷积通过现有的层可以开发复杂网络结构实现功能的融合,可以对比维护Boosting、Random Forest。
深度学习与机器学习的区别:
深度学习是学习输入到输出的多层的复合映射,二而机器学习只是一种映射。学习目标和学习方法可以通过调节层之间卷积或全连接的关系或其他映射得到不同的知识表示。亚研院用RF做过一个新映射关系研究等。
商汤CVPR2016年发布的论文是目前工业级主要的应用,四篇论文分别是《物体分割》、《服饰识别搜索术》、《行为识别与定位》、《人脸检测中级联卷积神经网络联合训练》,基础技术Alexnet、VGGnet、GoogleNet、ResNet、DensNet完成任务:检测、识别、分割、特征定位、序列学习。
第一篇主要解决的学术问题:Instance segmentation(Simultaneous Detection and Segementation)
主要解决了object Detection检测和语义分割Semantic Segmentation需要得到物体精确的边界信息和区分不同物体。
从语义分割上升到场景理解,解决joint cascade face detection and alignment,facial landmark detection by deep mulit -task learning。有多个标注的任务并列Multi-Task Learning。
所以多感知学习是非监督学习的方向主要是借助动态规划和图解决学习局限,实现迁移学习基础上的增强学习
Deep Residual learing for image Recognition和Structural—RNN:deep learning Spatio-Temporal Graphs值得阅读。
论文太对了,可以阅读最近几年CVPR、ECCV、ICCV的最近论文和最佳学术论文。
孙剑和何凯明等主要解决了超过20层的训练和测试不再下降,随着层数增加loss会逐渐增加。通过跨层反传skip-layer把loss反传到中间的很多层,解决梯度传播问题,同时提出一种思路:resNet通过skip-layer可以做到多模型融合。
模型优化有本书《解析卷积神经网络》第四章有压缩方案
前端压缩和后端压缩,分别是剪枝、低秩近似和参数量化。
前端方法:
剪枝,思想来自决策树解决冗余参数。流程
1、衡量神经元的重要程度,L1和L2范数来衡量channel维滤波器的重要程度
2、按照重要程度降序删除影响小神经元
3、网络微调
4、循环操作
一种基于滤波器权重的剪枝一种基于数据驱动根据某一个channel输出的稀疏程度,也可能反应出了滤波器权重的稀疏程度。另外计算滤波器对于损失函数的影响程度减去小滤波器。所以适用于前端压缩技术,对网络破坏性小。
低秩近似(后端)
卷积的基本操作矩阵的相乘和相加,权重矩阵的特征比较巨大和稠密,计算开销和存储很大,所以进行矩阵的若干个小规模矩阵近似重构。奇异值分解SVD分解全链接层的权重。
但是由于这种方法的本质是重构近似矩阵,大型神经网络秩很高不一定能用,所以适合小网络。
参数量化
权重聚类,通过类别索引代替原权重矩阵。步骤如下:
1、归纳权重代表,代表某一类权重的具体数值。
2、将代表数存在码本中
3、将原矩阵中的权重替换成索引标量表示
采用思想:二值网络、知识蒸馏、紧凑网络结构技术。
相关机构:云从研究院、《ICLR2016Bestpaper》song Han、ISCA2018、
发展方向:Non-fine-tuning or Unsupervised Compression
self-adaptive Compression
Network Acceleration for other tasks
Hardware-Software Co-design
Binarized Neural Networks 等VALSE2018深度神经网络加速与压缩

猜你喜欢

转载自blog.csdn.net/yunxinan/article/details/81535872