2018.3.23 林达华报告

香港中文大学

CVPR
ICCV
ECCV
NIPS

人脸识别:AAAI2015,GaussianFace、DeepID

机器学习的黄金期:推动力是GPU的发展——层数越来越深:ImageNet:AlexNet、VGGNet、ResNet、PolyNet

深度网络性能已经达到极限——下一步何去何从?
跳出单个任务
SVM -> 深度神经网络 -> 模型化多任务之间的联系 -> 推理 -> 对系统/世界的总体认识 ---- … ----> 自主意识

从image到video:
Video的特性:数据量很大、缺乏精细标注、时序上具有复杂的结构

目前的通用方法——Dense Sampling
浪费计算资源、时序上的覆盖有限
2-stream,C3D

TSN:
Tag-based Retrieval(视频片段分割)

Activity Detection:
判断起点和终点、sliding window
ICCV 2017 Structured Segment Networks——两个分类器(类别+是否是完整事件)
直接定位一些视频的关键部分

Humen-Centric Analysis
将重点放在人的分析,而非场景
Graph Convolutional Network——图结构的分析(skeleton的局部的conv)
Weights——中心型weight,向心/分离型
ST-GCNs(时空均做conv)
将二维上的conv应用到图结构上(Kinetics)
多模态结合

Visual relationship
Object和action之间的组合,label太多,如果只考虑action,则object区别太大
概率建模:
Deep Relational Network(DRNet)
Object->relation(scene graph)
综合多种技术

猜你喜欢

转载自blog.csdn.net/u012397583/article/details/86363249