CVPR2017部分论文简介

文献	概述	研究内容	数据集	年份
运动物体检测内容
Learning Motion Patterns in Videos	学习视频中的运动模式,建立运动模式网络输入图像光流图输出视频中运动的物体，即使相机是移动的	运动相机检测运动物体	DAVIS	2017
Learning Features by Watching Objects Move	我们在视频中使用无监督的基于模式的分割来获取片段，我们将其用作“伪地真相”来训练一个卷积网络从一个帧中分割对象	运动物体检测
Optical Flow in Mostly Rigid Scenes	自然场景的光流是观察者运动和物体独立运动的结合，现有的算法通常侧重于在纯静态世界或一般无约束场景的光流的假设下恢复运动和结构。此文章从外观和物理约束中对移动对象进行显式的分割，在静态区域，我们利用强大的约束条件，在多个帧上联合估计摄像机的运动和场景的三维结构。https://www.youtube.com/watch?v=N7a3AZEi-c4视频	光流法估计运动物体	KITTI	CVPR2017
MODNet: Moving Object Detection Network with Motion and Appearance for Autonomous Driving	无人驾驶中的目标检测。提出了一种新的多任务学习系统，它结合了外观和运动提示，以更好地解释环境的语义，运动分割和车辆检测的联合训练有利于运动的分割。https://www.youtube.com/watch?v=hwP_oQeULfc视频	运动分割，车辆检测	KITTI	CVPR2017
Unsupervised Learning of Depth and Ego-Motion From Video	基于视频的无监督深度和自运动学习。采用了无监督的方法针对视频数据进行训练，从而对单张图片的深度以及连续帧之间的车辆运动进行估计，可以对大量已知相机内参的视频数据进行训练，为 CNN 在自动驾驶领域的应用带来的新的启发。这篇论文用视频连续帧的不同视角的几何信息作为监督信号训练了一种端到端的单目图像深度估计和车辆运动估计的 framework。https://www.youtube.com/watch?v=HWu39YkGKvI视频	自运动估计，无监督学习，运动车辆检测	KITTI	CVPR2017
FusionSeg: Learning to Combine Motion and Appearance for Fully Automatic Segmentation of Generic Objects in Videos	建立外观模和运动模式，并将两者相结合进行视频中运动物体检测	运动物体检测	CVPR2017
Fast Multi-Frame Stereo Scene Flow With Motion Segmentation	使用运动场景流概念，本文的方法估计了来自立体对的密集视差和光流，这相当于立体的场景流估计。在摄像机运动的情况下将运动物体精确分割	运动物体检测	CVPR2017
Multi-View 3D Object Detection Network for Autonomous Driving	本文针对自动驾驶场景中的高精度三维目标检测。我们提出了多视图三维网络(MV3D)，这是一个传感器融合的框架，它将激光雷达点云和RGB图像作为输入，并预测面向三维的边界框。	3D物体检测应用于自动驾驶	CVPR2017
Deep Feature Flow for Video Recognition	提出使用深层特征流进行视频识别	视频处理方案，物体识别	CVPR2017
Learning Video Object Segmentation From Static Images	本文模型在每帧的基础上进行，在前一个帧的输出的指导下，指向下一帧的兴趣对象。文章证明，使用卷积神经网络(卷积神经网络)仅对静态图像进行训练，可以使视频中高度精确的对象分割。	视频物体分割，视频处理方案	CVPR2017
Learning to Segment Instances in Videos with Spatial Propagation Network	通过空间传播网络学习视频中的片段实例。本文针对视频中多目标运动物体分割问题。主要关注视频中多实例分割的问题。具体来说，在第一帧中给定每个对象掩码，我们试图在整个视频序列中预测这个实例的片段。	运动物体分割	DAVIS	CVPR2017
Minimum Delay Moving Object Detection	本文提出了一种基于表观运动的视频对象检测的一般框架和方法。	运动物体检测
DeMoN: Depth and Motion Network for Learning Monocular Stereo	在本文中，我们把运动的结构作为一个学习的问题。我们通过连续的、无约束的图像对来训练一个复杂的端到端的网络来计算深度和摄像机的运动，网络不仅估计了深度和运动，而且还估计了表面的法线，图像之间的光流和匹配的可信度。	运动物体检测	CVPR2017
Detecting Flying Objects using a Single Moving Camera	使用单一运动相机检测飞行物体。本文要解决的问题是用一个运动的相机来检测飞行物体	PAMI 2017
自动驾驶部分
Efficient Deep Models for Monocular Road Segmentation	针对路面检测和分割问题，本文结合FCN 和 U-Net 提出一个网络 Up-Convolutional Networks，在速度和精度方面得到不错的效果	道路分割，路面检测和分割问题	KITTI	CVPR2017
Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monocular image	给一张灰度图像，使用多任务CNN网络 Deep MANTA 可以给出6个信息： region proposal, detection, 2D box regression, part localization, part visibility and 3D template prediction，此外，深层的MANTA网络能够定位车辆部件，即使这些部件是不可见的	车辆定位	KITTT	CVPR2017
End-to-end Learning of Driving Models from Large-scale Video Datasets	基于视觉的深度学习的自动驾驶实现模型。从Vision的角度通过深度学习实现自动驾驶，在路况复杂的环境中实现车道跟随及泛化自动驾驶的场景等https://www.youtube.com/watch?v=jxlNfUzbGAY	自动驾驶	KITTI	CVPR2017
DAVE: A Unified Framework for Fast Vehicle Detection and Annotation	本文使用深度学习进行车辆检测和属性学习	车辆检测	KITTI	ECCV2016
光流法部分
Optical Flow with Semantic Segmentation and Localized Layers	使用光流进行语义分割和定位，光流的变化依赖于物体类别，根据物体的类型，我们在这些区域内定义不同的图像运动模型. 我们利用静态语义场景分割的最新进展，将图像分割为不同类型的对象。https://www.youtube.com/watch?v=QwmBSTWgr_s视频	光流法语义分割	KITTI	CVPR2017
FlowNet: Learning Optical Flow with Convolutional Networks	CNN网络来计算光流，实现端对端训练，自己制作了个训练数据库 Flying Chairs	光流计算	CVPR2015
FlowNet: Learning Optical Flow with Convolutional Networks	FlowNet2.0升级版	光流计算	CVPR2017
Robust Interpolation of Correspondences for Large Displacement Optical Flow	对应的插值(EpicFlow)在最近的工程中被广泛应用于光流估计。它具有保护边缘和效率的优点。但在现代匹配技术中，输入匹配噪声是不可避免的。本文提出了一种鲁棒插值方法(称为RicFlow)来克服缺点。	光流法EpicFlow升级版	CVPR2017
Optical Flow Estimation Using a Spatial Pyramid Network	我们通过将经典的空间金字塔式的公式与深度学习相结合来学习计算光流。	光流法	CVPR2017
InterpoNet, a Brain Inspired Neural Network for Optical Flow Dense Interpolation	提出了一种基于完全卷积网络的数据驱动的基于多密度的插值算法。提出一种优于EpicFlow的光流法	光流法	KITTI
Optical Flow Requires Multiple Strategies (but only one network)	使用单个神经网络获得光流	光流法	KITTI
行为监测部分
Keep it SMPL: Automatic Estimation of 3D Human Pose and Shape from a Single Image	从单个图像自动估计三维人体姿态和形状	行为识别	ECCV2016
Temporal Segment Networks: Towards Good Practices for Deep Action Recognition	视频中进行行为识别。Temporal Segment Network（TSN）--一种新型的基于视频的行为识别的网络结构。它将稀疏时间采样策略和基于视频的监督相结合，使用整个视频支持有效的学习。利用TSN网络结构学习卷积神经网络在视频数据方面的处理。	行为识别	CVPR2017
What Will I Do Next? The Intention from Motion Experiment.	根据视频运动预测接下来运动意图。意向预测:一种新的范例，在没有观察到的未来行动的情况下，进行未来行为预测。在同一类运动行为中，在外观上都是极其相似的，不管发生什么不同的结局。	运动行为预测	CVPR2017
Inferring Hidden Statuses and Actions in Video by Causal Reasoning	通过因果推理推断视频中的隐藏状态和动作	运动行为预测	CVPR2017
Unsupervised Learning of Long-Term Motion Dynamics for Videos	提出一种方法，通过预测原子三维流动的一系列基本运动来学习视频表示。然后从这个模型中提取学习的表示来识别活动。	运动行为识别	CVPR2017
On Human Motion Prediction Using Recurrent Neural Networks	运动行为预测	运动行为预测	CVPR2017
Deep Representation Learning for Human Motion Prediction and Classification	人类运动预测和分类的深层表征学习	人体运动预测	CVPR2017
Spatiotemporal Pyramid Network for Video Action Recognition	双流卷积网络在视频动作识别任务中表现出很强的性能。关键思想是通过空间和时间上的卷积网络来学习时空特征。我们提出了一种新的时空金字塔网络，将其在金字塔结构中的空间和时间特征融合在一起，这样它们就可以互相加强	视频动作识别	CVPR2017
Spatiotemporal Multiplier Networks for Video Action Recognition	本文提出了一种基于时空特征乘性交互的视频动作识别通用的卷积网络结构。我们的模型将两流建筑的外观和运动路径通过运动门结合起来，并进行了端到端的训练。	动作识别	CVPR2017
A Study of Vision based Human Motion Recognition and Analysis	本文讨论了人体运动识别的应用、一般框架以及各组成部分的细节。	动作识别	CVPR2017
Scene Flow to Action Map: A New Representation for RGB-D Based Action Recognition With Convolutional Neural Networks	使用场景流配合卷积神经网络进行行为识别	行为识别	CVPR2017
Asynchronous Temporal Fields for Action Recognition	行为识别	行为识别	CVPR2017
SCC: Semantic Context Cascade for Efficient Action Detection	在本文中，我们引入了一个语义级联上下文(SCC)模型，目的是在长视频序列中检测动作，通过接受与人类活动相关的语义优先级，SCC产生了高质量的类特定的行动建议，并以级联的方式删除了不相关的活动。	行为识别	CVPR2017
Surface Motion Capture Transfer With Gaussian Process Regression	行为检测	CVPR2017
物体检测部分
End-to-End Instance Segmentation with Recurrent Attention	使用端到端的递归神经网络进行实例物体分割.本文针对实例分割使用递归神经网络(RNN)架构将每个物体依次定位分割出来,使用了一个注意机制模型类似人类的计算过程	实例物体分割	CVPPP, KITTI, Cityscapes	CVPR2017
Detect to Track and Track to Detect	视频目标检测跟踪，本文针对视频目标检测问题提出一个统一的框架同时完成检测和跟踪	目标检测跟踪	ImageNet video	CVPR2017
Towards End-to-End Car License Plates Detection and Recognition with Deep Neural Networks	使用深度神经网络检测并识别车牌。本文使用CNN网络来进行车牌检测和识别，一个网络完成端对端训练，检测和识别不用分离。	车牌识别及检测	CVPR2017
One-Shot Video Object Segmentation	视频物体分割。介绍了一种用于解决半监督视频对象分割问题的CNN架构，即对视频序列中所有像素的分类进行背景和前景的分类，并给出了一个(或多个)帧的人工注释。	卷积神经网络	Davis	CVPR2017
BlitzNet: A Real-Time Deep Network for Scene Understanding	目标检测分割，场景理解	目标检测分割，场景理解	CVPR2017
Deep Feature Flow for Video Recognition	用来视频物体识别的深度特征流https://www.youtube.com/watch?v=J0rMHE6ehGw视频	视频中的物体检测	CVPR2017
Flow-Guided Feature Aggregation for Video Object Detection	视频中的物体检测	CVPR2017
特征点匹配
GMS: Grid-based Motion Statistics for Fast, Ultra-robust Feature Correspondence	一种视频的快速搜索技术，比SIFT还厉害。基于网格的运动统计，用于快速、超鲁棒的特征匹配	特征点匹配	CVPR2017
监控视频处理
Surveillance Video Parsing With Single Frame Supervision	监视视频解析，将视频帧分成多个标签，即脸，裤子，左腿，有广泛的应用。	监控视频	CVPR2017

CVPR2017部分论文简介

猜你喜欢