추적 요약 (주로 깊은 학습)

개요

최근 몇 년 동안, 학습의 깊이는, 객체 추적의 분야에서 많은 성공 응용 프로그램 및 성능이 점차 이상 기존의 방법이있다. 이 논문 콤은 기존의 분류는 학습의 깊이에 따라 알고리즘을 추적하고있다.

고전 대상 추적 방법

현재의 추적 알고리즘은 제품 (생성 적 모델) 및 두 종류의 판별 (차별적 모델)로 나눌 수있다.

방법 피상 생산 모델은 다음에 의해 발생 특성 타겟 설명 검색 재구성 에러를 최소화하기 위해 후보 타겟. 스파 스 코딩 (스파 스 코딩) 알고리즘, 라인 밀도 추정 (온라인 밀도 추정) 등이 주성분 분석 (PCA)과의 더 많은 대표. 차단시 타겟 자체 표류하는 경향 또는 변경 대상 자체 무시 컨텍스트 특성화의 제조 방법에 초점을 극적이다.

분류기는 훈련에 의해 대조적으로, 판별 방법은 대상과 배경 사이를 구별한다. 이 방법은 추적별로 검출로서 알려져있다. 최근 몇 년 동안, 다양한 기계 학습 알고리즘은에서 더 많은 대표, (다중 인스턴스 학습) 학습 강화와 SVM (구조화 SVM)의 구조 방법의 예와 같은 판별 방법에 적용된다. 배경 및 전경 정보 사이에 상당한 차이가 성능이 더 강력하기 때문에 판별 방법은, 점차 대상 추적에서 주요 위치를 차지한다. 그것은 깊은 학습 객체 추적 방법의 대부분이 또한 판별 프레임 (이해)에 기인 것을 언급 할만큼 가치입니다.

최근 몇 년 동안, 상관 관계는 많은 연구자들의 관심을 끌기 위해 추적 방법은 빠른에 기반하기 때문에 (상관 필터), 좋은 효과를 필터링. 대상 가우스 분포에 대한 입력 필터를 훈련에 복귀에 관련 기능을 기준으로 필터링 할 수 있습니다. 예측 분포와 물체의 위치를 ​​찾으려면 후속의 피크 응답을 발견. 상관 필터의 계산은 푸리에 편리함 상당한 속도 증가를 얻기 위해 변환. 확장 할 수있는 현재의 상관 관계 필터를 바탕으로, 핵의 상관 관계 필터 (kernelized 상관 필터, KCF), 추정 상관 필터 플러스 스케일합니다 (DSST) 등을 포함하는 많은있다.

학습의 깊이에 따라 대상 추적 방법

비전 추세 감지, 인식의 깊이 연구 지배의 분야와는 달리, 목표 추적에 깊은 학습 응용 프로그램은 쉽지 않았다. 단지 훈련 데이터로 첫 번째 프레임의 경계 박스를 제공 추적 라벨 훈련 데이터의 많은 수에서 효과적인 학습의 마법 깊이 모델 중 하나 및 대상 : 가장 큰 문제는 학습 데이터의 부족이다. 이 경우, 모델을 훈련 현재 대상의 깊이 처음부터 시작 추적의 어려움. 현재 깊이 연구를 기반으로 목표 추적 알고리즘은, 다음 마지막으로 재발 성 신경 네트워크의 사용에 문제를 추적 확장에 따라의 아이디어를 소개하고 주소를 대상으로합니다이 문제를 해결하기 위해 여러 가지 아이디어를 사용하여 추적 영역의 현재 상황 (재발 성 신경 네트워크)의 새로운 아이디어.

보조 영상 데이터를 미리 깊이있는 교육 모델, 미세 조정 온라인 추적

매우 제한된 환경에서 목표 트랙의 학습 데이터는, 보조 비 추적 트레이닝 데이터는 타겟을 추적하는 전류 제한 샘플을 사용하여 정보를 통해, 실제의 선로에서는, 오브젝트에 액세스 일반 표현 (일반 표현)를 갖추고, 트레이닝 사전 모델 트리밍 (미세 조정)을 사전 교육, 모델이 현재 트랙에 대한 강한 분류 성능 목표를 가지고,이 마이그레이션을 학습의 생각은 크게 대상 교육 샘플 추적에 대한 필요성을 감소뿐만 아니라 추적 알고리즘의 성능을 향상시킬 수 있습니다.
대표적인 작품이 측면은 DLT 및 SO-DLT, 과학의 홍콩 대학의 박사 나이 - 바위에서 모두를 포함한다.

DLT (NIPS2013)

비주얼 추적을위한 컴팩트 한 이미지 표현 깊은 학습

DLT는 하나의 목표 추적 작업 추적 알고리즘에 깊이를 사용하는 최초의 모델이다. 위의 그림과 같이 주요 아이디어 :

작은 이미지에 노이즈 저감 인코더 (적층 잡음 제거 autoencoder, SDAE) 자율 사전 훈련 오프라인에서 먼저 스택을 사용하여 (1)은 공통 객체 특성 능력 그러한 대규모 자연 화상 데이터 세트를 데이터 셋. (b) 상기와 같이 Pretraining 네트워크 구조, 인코더에서 잡음 누적 총 4는 입력 노이즈 인코더 노이즈 재구성 원래 소음을 특징으로하는보다 강력한를 얻기 위해 첨가 기술. 이러한 SDAE1024-2560-1024-512-256 병목 디자인은 컴팩트 얻을 수 있습니다.

온라인 SDAE 오프라인 부분을 코딩하는,, (c)에 보이는 부분 구조를 추적 분류 (2) 조성물의 분류 후에 레이어를 중첩 S 자형. 이 경우, 현재 오브젝트에 대한 특정 식을 얻지 못한다 네트워크 추적된다. 이때, 양성 및 음성 시료를 미세 조정할 대상과 배경 전류 더 분류 대상 네트워크를 추적 할 수있는 네트워크를 획득하기 위해, 분류를 처음 프레임을 사용하여 획득. 추적 방법에서는, 입자 필터 (미립자 필터)를 사용하여 현재 프레임의 추출 패치 형태의 복수의 후보 (제안서의 검출에 대응), 그 비밀 네트워크 입력 패치 마지막으로, 예측 대상의 가장 높은 신뢰도.

가장 높은 신뢰의 모든 입자가 임계 값보다 때 종이에 매우 중요한 모델 업데이트 정책을 추적 (3) 대상, 목표는 비교적 큰 명백한 변화가 자리를 차지하게되었다는, 즉, 현재의 분류 방법의 정의 된 임계 값을 촬영합니다 네트워크에 적응할 수 없었다, 갱신 될 필요가있다.

요약 : 추적 알고리즘은 하나의 깊이 네트워크 대상 추적에 적용되는 DLT 먼저 CVPR2013에서 제시 한 "오프라인 사전 교육 + 온라인 미세 조정"큰 정도 생각은, 불충분 한 훈련 샘플의 추적 문제를 해결 제안 추적기 OTB50 5 (29)는 데이터 세트를 기록했다.

자신을 DLT,하지만 몇 가지 단점이 있습니다 :

(1) 데이터 세트를 32 * 32 화면 크기를 포함 셋 작은 이미지를 이용하여 라인을 사전은 훈련 크게 SDAE 기능 표현 내용에 충분히 강한 곤란 주 트랙 시퀀스의 해상도보다 낮다.

대상과 배경의 목표를 구별하는 온라인 필요성을 추적 훈련 목표 (2) 사진의 재건 오프라인 단계는 상당히 다양합니다.

마찬가지로 삼진 같은 깊이 모형 층 4, 여전히 일부 종래의 추적보다 낮은 효과 인공 방법을 이용하여 기능하지만 (3)는 완전히 연결된 네트워크 구조는 충분한을 설명 SDAE 타겟 특성 능력을 만든다.

강력한 비주얼 추적을위한 풍부한 기능의 계층 구조를 전송

SO-DLT 온라인 비 사용 추적 데이터의 정책 DLT 계속은 사전 훈련 플러스 미세 조정 추적 훈련 프로세스 데이터 문제의 부족을 해결하기 위해, 또한 DLT 문제에 개선을 많이했다.

(1) 상기 취득 된 네트워크 모델을 사용하여 분류는 CNN과 같은 기능. 유사한 AlexNet 네트워크 구조를 사용 SO-DLT 위에서 제시하지만 같은 여러 기능을 가지고
입력의 추적에 대한 후보 영역의 크기가 아닌 일반적인 분류 또는 검출 태스크 100 * 100, 224로 감소 * 224.
둘째, 네트워크 크기의 출력은 50 * 50, 값 0-1 확률 맵 (확률 MAP), 2 * 2 화상에 대응하는 각 출력 화소의 영역, 대상 점 bounding-의 높은 값을 출력 사이 확률 상자 높은. 이 방법은, 화상 정보 그 자체의 구조를 활용 이름 SO-DLT 구조체 출력 원점 네트워크 입력 제안서, 수백 피하기 위해, 최종 경계 박스를 용이하게하기 위해 확률 맵으로부터 직접 결정된다.
셋째, 중간층 공간 SPP-NET 피라미드 샘플링 (공간 피라미드 풀링) 전체 연결 층의 컨볼 루션은 최종 위치 결정 정확도를 향상시킬 수있다.

수득 ImageNet 검출 CNN 데이터 세트를 사용하여 2,014 (2) 오프라인 트레이닝 객체와 비 목적 (배경)을 구별 할 수있는 능력을 가능하게한다.

다음과 같이 SO-DLT-라인 추적 등도 파이프 라인은 다음과 같습니다

(1) t 번째 프레임 처리 큰 작물 영역에서 작은 다른 배율로 중심으로 제 t-1 프레임의 위치를 ​​예측하는 CNN, CNN 확률로 할 때 특정 임계치 이상의 출력 맵의 합 정지 자르기, 검색 영역의 크기와 같은 현재 규모의 최고.

(2) 选定第t帧的最佳搜索区域后,在该区域输出的probability map上采取一系列策略确定最终的bounding-box中心位置和大小。

(3) 在模型更新方面,为了解决使用不准确结果fine-tune导致的drift问题,使用了long-term 和short-term两个CNN,即CNNs和CNNl。CNNs更新频繁,使其对目标的表观变化及时响应。CNNl更新较少,使其对错误结果更加鲁棒。二者结合,取最confident的结果作为输出。从而在adaptation和drift之间达到一个均衡。

小结:SO-DLT作为large-scale CNN网络在目标跟踪领域的一次成功应用,取得了非常优异的表现:在CVPR2013提出的OTB50数据集上OPE准确度绘图(precision plot)达到了0.819, OPE成功率绘图(success plot)达到了0.602。远超当时其它的state of the art。
SO-DLT有几点值得借鉴:

(1) 针对tracking问题设计了有针对性的网络结构。

(2) 应用CNNS和CNNL用ensemble的思路解决update 的敏感性,特定参数取多值做平滑,解决参数取值的敏感性。这些措施目前已成为跟踪算法提高评分的杀手锏。

但是SO-DLT离线预训练依然使用的是大量无关联图片,作者认为使用更贴合跟踪实质的时序关联数据是一个更好的选择。

利用现有大规模分类数据集预训练的CNN分类网络提取特征

2015年以来,在目标跟踪领域应用深度学习兴起了一股新的潮流。即直接使用ImageNet这样的大规模分类数据库上训练出的CNN网络如VGG-Net获得目标的特征表示,之后再用观测模型(observation model)进行分类获得跟踪结果。
这种做法既避开了跟踪时直接训练large-scale CNN样本不足的困境,也充分利用了深度特征强大的表征能力。这样的工作在ICML15,ICCV15,CVPR16均有出现。下面介绍两篇发表于ICCV15的工作。

FCNT(ICCV15)

Visual Tracking with Fully Convolutional Networks

作为应用CNN特征于物体跟踪的代表作品,FCNT的亮点之一在于对ImageNet上预训练得到的CNN特征在目标跟踪任务上的性能做了深入的分析,并根据分析结果设计了后续的网络结构。

FCNT主要对VGG-16的Conv4-3和Conv5-3层输出的特征图谱(feature map)做了分析,并得出以下结论:

(1) CNN 的feature map可以用来做跟踪目标的定位。

(2) CNN 的许多feature map存在噪声或者和物体跟踪区分目标和背景的任务关联较小。

(3) CNN不同层的特征特点不一。高层(Conv5-3)特征擅长区分不同类别的物体,对目标的形变和遮挡非常鲁棒,但是对类内物体的区分能力非常差。低层(Conv4-3)特征更关注目标的局部细节,可以用来区分背景中相似的distractor,但是对目标的剧烈形变非常不鲁棒。

依据以上分析,FCNT最终形成了如上图所示的框架结构:

(1) 对于Conv4-3和Conv5-3特征分别构建特征选择网络sel-CNN(1层dropout加1层卷积),选出和当前跟踪目标最相关的feature map channel。

(2) 对筛选出的Conv5-3和Conv4-3特征分别构建捕捉类别信息的GNet和区分distractor(背景相似物体)的SNet(都是两层卷积结构)。

(3) 在第一帧中使用给出的bounding-box生成热度图(heat map)回归训练sel-CNN, GNet和SNet。

(4) 对于每一帧,以上一帧预测结果为中心crop出一块区域,之后分别输入GNet和SNet,得到两个预测的heatmap,并根据是否有distractor决定使用哪个heatmap 生成最终的跟踪结果。
小结:FCNT根据对CNN不同层特征的分析,构建特征筛选网络和两个互补的heat-map预测网络。达到有效抑制distractor防止跟踪器漂移,同时对目标本身的形变更加鲁棒的效果,也是ensemble思路的又一成功实现。在CVPR2013提出的OTB50数据集上OPE准确度绘图(precision plot)达到了0.856,OPE成功率绘图(success plot)达到了0.599,准确度绘图有较大提高。实际测试中FCNT的对遮挡的表现不是很鲁棒,现有的更新策略还有提高空间。

추천

출처www.cnblogs.com/liuboblog/p/12076467.html