재 인쇄 : 실시간 입체 물체 감지 오일러 지역 프로그램에 대한 포인트 클라우드 ---- 단지-욜로

기계 번역은 많은 장소가 유창하지 할 수 있도록하고 참조 느낌입니다





원래 이름 : 단지-욜로 : 실시간 3D 객체 검출 ON 포인트 클라우드에 대한 오일러 - 지역 - 제안
원래 주소 : http://www.sohu.com/a/285118205_715754
코드의 위치 : https://github.com/ Mandylove1993 / 복합 욜로 (가치가 재현)

요약 . 이 직접 따라서 예측 동작 계획에 기반을 마련 환경의 이해와 관련이 있기 때문에 삼차원 레이저 레이더 타겟 검출에 기초하여, 불가피한 선택 오토 파일럿이다. (예 : 증강 현실, 개인용 로봇 또는 산업 자동화 등) 자동화 된 차량뿐만 아니라 기타 여러 응용 프로그램에 대한 스파 스 데이터가 불편 문제입니다 3D 실시간의 높이를 추론 할 수있는 능력. 우리는 복잡한 욜로, 점 구름 만 실시간 3 차원 물체 감지 네트워크를 소개합니다. 본 연구에서 우리는 네트워크 기술, 그것은 특정 복소 회귀 방법 RGB 표준 대상 검출기 yolov2하는 2 차원 화상의 급속한 팽창을 통해 멀티 클래스 상자 3D 데카르트 공간 추정된다. 따라서, 오일러의 특정 영역을 가상 분획 회귀 네트워크 고형분을 추가하여 객체의 자세를 추정하기 위해, 네트워크 (E-RPN)를 권장 제안한다. 이것은 폐쇄 공간에서 복잡 종료되고, 단일 각도 발생으로부터 추정되는 특이점을 피하기 위해. E-RPN은 훈련 기간 동안 좋은 개요를 지원합니다. 키티 벤치 마크 스위트에서 우리의 실험은 효율성의 관점에서, 우리는 현재 최고의 3D 물체 검출 방법보다 더 나은 것을 보여줍니다. 우리 빨리 가장 빠른 경쟁 업체보다 5 배는, 자동차, 보행자와 자전거에서 가장 진보 된 성과를 얻을 수있다. 모두 8 개 개의 작은 트럭, 밴, 트럭 등 또는 보행자를 앉아있는 동안 또한, 우리의 모델은 높은 정확도로 추정 할 수있다.

키워드 : 삼차원 물체 검출, 점군 처리, 레이저 레이더, 자율 주행

1 소개

최근에는 점점 더 중요 자기 차를 운전을위한 자동 레이저 레이더 센서, 포인트 클라우드 처리의 개선. 센서 공급자는 주변 환경을 실시간으로 입체 포인트를 제공 할 수있다. 장점은 첨부 된 피사체 거리 [1]의 직접적인 척도이다. 이것은 우리가 검출 알고리즘은, 자동 구동을 위해 개발 된 3 차원 위치 및 다른 표적의 방향을 정확하게 추정 할 수 타겟팅 할 수 [2] [3] [4] [5] [6] [7] [8] [9]이다. 화상 전체 측정 영역 위에 레이저 포인트 클라우드 레이더 희박한 농도 분포와 비교. 이 점은 로컬 상호 작용, 무질서하고, 주요 분석을 위해 격리 할 수 ​​없습니다. 포인트 클라우드 처리는 항상 기본 변환 [10] [11]에 대한 동일하게 유지해야한다.

깊은 학습에 기초하여 일반 객체 검출 및 분류는, 이미지 [12] [13] [14] [15] [16] [17] [18] [19]의 2D 바운딩 박스를 리턴 광범위한 작업 알려진 온라인 성립 [20] [21]. 연구의 주요 초점은 정확성과 효율성 사이의 트레이드 오프입니다. 자동 운전의 효율성에 따라 훨씬 더 중요하다. 바람직하게는 LAN (RPN)을 이용하므로 객체 검출기, [3] [22] [15] 또는 유사한 그리드 기반 방법 RPN - [13]. 이러한 네트워크는 매우 정확하고 효율적인 전용 임베디드 하드웨어 나 장비에서 실행도 가능하다. 클라우드 탐지 개체 포인트는 여전히 온라인과 블랙 베리 거의 블랙 베리, 그러나 중요하다. 이러한 응용 프로그램은 3D 경계 상자의 것으로 할 필요성을 예측할 수있다. 현재 주로 사용되는 깊이를 세 가지 학습 방법이 존재한다 : [3]
1. 다층 퍼셉트론 처리 점군 층 직접 사용 [5] [10] [11] [23] [24]
2. 화상의 화소 또는 포인트 클라우드 스택 모드에서 컨볼 루션 신경망 (CNN)을 이용하여 번역 [2] [3] [4] [6] [8] [9] [25] [26]
(3). 공동 융합 방법 [2] [7]

1.1 관련 연구

최근, [5] 네트워크 기반 원추는 키티 기준 슈트에 우수한 성능을 나타낸다. 두번째 모델은 예컨대 그 기반 차량, 보행자 및 자전거 검출 공중보기로 삼차원 물체 검출에 나열된다. 이것은 직접 CNN에 LIDAR를 사용하지 않고, 점 구름을 처리하는 네트워크 [10]를 가리 몸체 요소를 생성하는 유일한 방법이다. 그러나, 전처리가 필요, 그것은 또한 카메라 센서를 사용해야합니다. 점 구름 복원 원뿔대에 기초하여 상기 전역 최소 점 구름에서 이러한 검출을 사용하여 교정에 기반 CNN 다른 카메라의 화상 처리. 이 방법은 두 가지 단점이있다 : I). 모델의 정확도는 크게 카메라 이미지 및 관련 CNN에 따라 달라집니다. 따라서, 상기 방법의 레이저 레이더 데이터 애플리케이션이 가능하다 II). 전체 파이프는 높은 효율과 낮은 추론 시간의 결과로, 연속 두 깊은 학습 방법을 실행해야합니다. 7fps까지만 정도의 프레임 레이트에서 동작 엔비디아 GTX 1080I GPU에서 기준 모델 [1].

반면에, 원주 등 [3]은 레이저 레이더 데이터에 실행되는 모델을 제안 하였다. 이러한 점에서, 단지 3D 비전 테스트 및 새 LIDAR 데이터를 사용 키티 최고 순위 모델입니다. 기본적인 아이디어는 핸드 메이드의 특성을 사용하지 않고 그리드 장치에서 실행 끝 끝에서 배우는 것입니다. 메시의 시점에서 교육 방법 동안, 학습은 그리드 셀 [10]에서 제공합니다. 가장 중요한 것은 CNN은 3 차원 경계 상자를 예측 구축하는 것입니다. 높은 정밀도에도 불구하고,하지만 모델 추정 시간은 4fps의 TitanxGPU에 매우 짧은 [3].

Chen 등. 다른 높은 순위 방법을보고. [5]. 기본 개념은, 도트 밀도, 대표 점의 최대 높이와 ​​복셀에 기초하여지도 상에 투영되는 레이저 레이더 RGB 점 구름의 강도 등 수제 기능을 사용하는 것이다 [10]. 매우 정확한 결과를 얻기 위하여, 이들은 레이저 레이더 계 공중보기 레이저 레이더 기반 카메라 기반 멀티 뷰 정면도 화상에있어서의 정면도를 사용했다. 결국 통합 처리 시간에지도에만 엔비디아 GTX의 1080I의 GPU에 4fps, 매우 깁니다. 또 다른 단점은 보조 입력 센서 (카메라)에 대한 필요성이다.

1.2 기여

놀랍게도 지금까지, 자동 조종 장치의 측면에서 실시간 효율을 달성 할 수 없었다. 따라서, 우리는 엔비디아 Titanx GPU에 50fps보다 빠르게 실행할 수 있습니다, 최초의 초박형 정확한 모델을 소개했다. 우리는 전처리 및 특징 추출 포인트 클라우드를위한 멀티 뷰 생각 (MV3D를) [5]를 사용하세요. 그러나 효율을 보장하기 위해에서는, RGB의 레이저 기반 레이더 (도 1 참조)의 단 하나의 공중보기를 생성하는 멀티 뷰 적분을 무시한다.

또, 가장 앞선 화상 오브젝트 검출기 [13] 중 하나 인 Yolov2의 복잡한 욜로 차원 분리를 도입했다. 욜로 우리 특정 전자 RPN 지원, 각 블록의 부호화 대상의 가상 및 실제 부분에 의해 표시되는 전자 RPN 추정 방향 복잡. 아이디어는 어떤 수학적 특이점, 정확한 각도 일반화와 함께 폐쇄 공간을 만드는 것입니다. 우리의 모델은 객체가 여러 지점 (예를 들어, 보행자)에 기초하는 경우에도, 물체의 정확한 위치 및 방향을 포함하여, 정확한 입체 실시간 프레임을 예측할 수있다.

따라서, 우리는 특별한 앵커 상자를 디자인했다. 또한, 모든 여덟 개 클래스 키티 레이저 레이더를 단지 입력 데이터를 사용하여 예측 될 수있다. 우리는 키티 벤치 마크 스위트에서 우리의 모델을 평가했다. 정확도 측면에서, 우리는 효율성의 관점에서, 우리의 성능이 적어도 5 회 현재 지도자를 초과 차량, 보행자와 자전거에서 동일한 결과를 얻을 수 있습니다. 이 논문의 주요 공헌은 다음과 같습니다

1. 본 논문에서는 난황 안정적인 입체 상자 회귀 추정 각도 새로운 방법 E-RPN 착체.

2. 우리는 현재 최고의 모델보다 다섯 배 빠른 속도가 실시간 속도와 키티 벤치 마크 스위트 평가 고정밀 성능을 제공합니다.

3. 우리는 전자 RPN 카세트 지원하여 각 차원 방향의 정확성을 추정 모델은 객체 주위의 궤도를 예측할 수 있습니다.

4. 다른 레이저 레이더 기반 방법 (예를 들어, [3])을 효과적으로 할 수있는 순방향 경로 추정에서의 모든 클래스 동시에 우리의 모델에 비해.

2 단지 - 욜로

이 섹션에서는 특정 네트워크 구조를 기반으로 그리드 포인트 클라우드의 전처리 기술, 교육, 결과적 손해에 대해 기능은 실시간 성능의 설계의 효율성을 보장합니다.

2.1 전처리 포인트 클라우드

Velodyne HDL64은 레이저 스캐너 [1] 취득한 차원 포인트 클라우드의 단일 프레임 원점 센서 80m × 40 M (도 2 참조. 4) 앞의 영역을 커버하는 단일 RGB 조감도로 변환된다. 첸 등 알에 의해 영감을. (Mv3d)은 [5] 신장, 강도 및 밀도에 기초하여 RGB 맵을 인코딩한다. 도 메쉬 크기는 N = 1,024, M = 512으로 정의된다. 따라서, 우리는 포인트 클라우드 투사 g = 8cm 정도의 해상도로 분산은 2 개 차원 격자이다 3D로합니다. 높은 입력 된 해상도를 갖는 반면 MV3D와 비교하여, 우리는 약간 작은 양자화 에러를 달성하기 위해, 셀의 크기를 감소시켰다. 효율과 성능의 이유로, 우리는 하나가 아닌 여러 개의 높이 맵 사용합니다. 따라서, 3 개 개의 채널은 상기 (ZR, ZG, ZR와 ZB; G, B Rm의 2 × N)의 범위에 대하여 계산 된 영역 Ω 구름 지점 P (2) R3 내에있다. 우리는 PΩ과 정의의 기원으로 간주 Velodyne합니다 :

약 3m 높이, 트럭이 가장 높은 목표가 될 것으로 예상된다의 지역을 커버하는 지상 :; 1.73m [1], 우리는 계정에 LIDAR Z 2 Z 위치 [25m 1 -2M]을 수행하기로 결정했습니다. 특정 그리드 셀 에스 RGB 우리 매핑 인덱스 I와 N 매핑 × S 2 RM과, 각 점이 (g pΩi)에 의한 보정은 [1], 우리는 매핑 함수 에스 = FPS를 정의한다. 특정 그리드 셀에 매핑 설명 된 모든 포인트의 설정 :


따라서, 우리가 고려 강도 I (pΩ)의 속도를 고려하여, 각 화소의 채널을 계산할 수있다 :


여기서, N 포인트의 에스 pΩi의 매핑을 설명 g 그리드 셀 파라미터의 크기이다. 따라서, ZG ZB가 최대 강도를 인코딩, 최대 높이를 인코딩하는 인코딩 ZR 모든 점 SJ의 정규화 된 밀도 (도 1 참조. 2)에 매핑.

2.2 구조

도 RGB로 공중 욜로 복잡한 네트워크는 입력으로 (섹션 2.1 참조). 이는 다중 각 회귀 간략화 Yolov2 [13] CNN 구조 (표 1 참조)를 사용하고, E-RPN은 실시간 동작의 많은 유형의 경우에 정확하게 배향 검출 된 삼차원 물체를 확장.

오일러 영역 제안 . 우리의 전자 RPN 입체적인 위치 BX 해결; Y, 오브젝트 사이즈 (폭 및 길이 BL BW) 및 확률 P0, 클래스 점수 P1 ::: PN을 최종적으로도 10의 특성에 bφ는 방향 입력을 분석 하였다. 올바른 방향을 얻기 위해, 우리는 단지 각 ARG (jzjeibφ)를 추가 일반적인 그리드 RPN 방법을 수정 한 :


借助这一扩展,E-RPN可以根据直接嵌入网络中的虚分数和实分数来估计精确的对象方向。对于每个网格单元(32x16,请参见选项卡。1)我们预测了五个对象,包括概率分数和类分数,每个对象产生75个特征,如图2所示。

锚箱设计。 Yolov2物体探测器[13]预测每个网格单元有五个盒子。所有这些都是用有益的先验,即锚箱初始化的,以便在训练期间更好地融合。由于角度回归,自由度,即可能的先验次数增加了,但由于效率原因,我们没有扩大预测次数。
因此,我们根据Kitti数据集内的方框分布,仅预先定义了三种不同的尺寸和两个角度方向:i)车辆尺寸(朝上);i i)车辆尺寸(朝下);i i i)自行车尺寸(朝上);i v)自行车尺寸(朝下);v)行人尺寸(朝左)。

复角回归。每个物体的方向角bφ可以通过相应的回归参数tim和tre计算得出,它们对应于复数的相位,类似于[27]。角度只需使用arctan2(tim;tre)。一方面,这避免了奇异性,另一方面,这导致了一个封闭的数学空间,从而对模型的推广产生了有利的影响。
我们可以将回归参数直接链接到损失函数(7)中。

2.3损失函数

我们的网络优化损失函数L基于Yolo[12]和Yolov2[13]的概念,他们使用引入的多部分损失将Lyolo定义为平方误差之和。我们将此方法推广到欧拉回归部分Leuler,以利用复数,复数具有封闭的数学空间用于角度比较。这忽略了单角度估计中常见的奇点:

损失函数的欧拉回归部分借助欧拉区域建议进行定义(见图3)。假设预测复数与地面真值(即jz j e i bφ和jz^j e i^bφ)之间的差总是位于单位圆上,jz j=1,jz^j=1,我们将平方误差的绝对值最小化,得到实际损失:

其中,λcoord是确保早期阶段稳定收敛的比例因子,1obj ij表示,与该预测的地面真值相比,单元i中的jth边界框预测器在联合(iou)上具有最高的交叉点。此外,还比较了预测框PJ和地面真值G与,其中也调整处理旋转框。这是通过两个二维多边形几何图形的交集和并集理论实现的,分别由相应的框参数bx、by、bw、bl和bφ生成。

2.4效率设计

所用网络设计的主要优点是预测一个推理过程中的所有边界框。e-rpn是网络的一部分,使用最后一个卷积层的输出来预测所有边界框。因此,我们只有一个网络,可以在没有特定培训方法的情况下以端到端的方式进行培训。因此,我们的模型比其他以滑动窗口方式生成区域建议的模型运行时间更低[22],预测每个建议的偏移量和类别(例如,更快的R-CNN[15])。在图5中,我们将我们的架构与Kitti基准上的一些主要模型进行了比较。我们的方法实现了一个更高的帧速率,同时仍然保持可比的地图(平均精度)。这些帧速率是直接从各自的论文中获得的,并且都在TitanX或TitanXP上进行了测试。我们在Titan X和Nvidia TX2板上测试了我们的模型,以强调实时功能(见图5)。

3培训与实验

我们在具有挑战性的Kitti物体检测基准[1]上评估了复杂的Yolo,该基准分为三个子类别:汽车、行人和自行车的二维、三维和鸟瞰物体检测。每个类的评估基于三个难度级别:容易、中等和难考虑对象大小、距离、遮挡和截断。这一公共数据集提供了7481个训练样本,包括注释地面实况和7518个测试样本,这些样本的点云取自一台Velodyne激光扫描仪,其中注释数据是私有的。请注意,我们关注的是鸟瞰图,并没有运行二维物体检测基准,因为我们的输入仅基于激光雷达。

3.1培训详情

我们从零开始通过随机梯度下降训练我们的模型,重量衰减为0.0005,动量为0.9。我们的实现基于修改版的Darknet神经网络框架[28]。首先,我们应用了我们的预处理(见第2.1节),从Velodyne样本中生成鸟瞰RGB图。根据[2][3][29]中的原则,我们对训练集进行了细分,使其具有公共可用的地面真实性,但使用85%的比率进行训练,15%的比率进行验证,因为我们从零开始训练,旨在建立一个能够进行多类预测的模型。相比之下,例如,体素网[3]对不同类别的模型进行了修改和优化。我们遭受了可用的地面真实数据,因为它是为了摄像机检测第一。75%以上的汽车、4%以下的自行车和15%以下的行人的阶级分布是不利的。此外,超过90%的注释对象都面向汽车方向、面向录音车或具有类似方向。在顶部,图4显示了从鸟瞰图角度看的空间物体位置的二维柱状图,其中密集点表示在这个位置的更多物体。它继承了鸟类视野图的两个盲点。然而,我们看到了验证集和其他记录的未标记Kitti序列的令人惊讶的好结果,这些序列涵盖了几个用例场景,如城市、公路或市中心。

在第一个阶段,我们从一个小的学习速度开始,以确保收敛。经过一段时期后,我们提高了学习率,并继续逐渐降低,达到1000个时期。由于细粒度要求,当使用鸟瞰方法时,预测特征的微小变化将对结果框预测产生强烈影响。除了漏校正线性激活外,我们对CNN的最后一层使用了批处理规范化和线性激活f(x)=x:

3.2kitti评价

我们已经调整了我们的实验设置,并遵循了官方的Kitti评估协议,其中IOU阈值为0.7级汽车,0.5级行人和骑自行车者。对图像平面上不可见的检测进行过滤,因为地面真值仅适用于也出现在摄像机记录图像平面[1]上的对象(见图4)。我们使用平均精度(AP)度量来比较结果。请注意,我们忽略了少数在鸟瞰图边界外的物体,这些物体的正面距离超过40米,以保持输入尺寸尽可能小,以提高效率。

鸟瞰图。我们对鸟瞰图检测的评估结果显示在表中。2。此基准使用边界框重叠进行比较。为了更好地概述和对结果进行排序,也列出了类似的当前主要方法,但在正式的Kitti测试集上执行。在运行时间和效率方面,复杂的Yolo始终优于所有竞争对手,但仍能达到相当的准确性。在TitanxGPU上运行大约0.02s,考虑到它们使用了更强大的GPU(Titanxp),我们比Avod[7]快5倍。与仅基于激光雷达的体素网[3]相比,我们的速度要快10倍多,而最慢的竞争对手MV3D[2]的速度要长18倍。

三维物体检测。Tab。3显示了我们对三维边界框重叠的实现结果。由于我们没有直接用回归估计高度信息,因此我们使用从地面实况中提取的固定空间高度位置来运行该基准,类似于MV3D[2]。此外,如前所述,我们只需根据每个对象的类为其注入一个预定义的高度,该高度是根据每个类的所有地面真值对象的平均值计算得出的。这降低了所有类的精度,但它证实了在鸟瞰基准上测量的良好结果。

4结论

本文提出了第一个基于激光雷达点云的三维目标检测实时高效深度学习模型。我们在Kitti Benchmark套件上以精确度(见图5)突出显示了我们的最新成果,其卓越的效率超过50 fps(Nvidia Titan X)。我们不需要额外的传感器,例如摄像头,就像大多数主要的方法一样。这一突破是通过引入新的E-RPN实现的,E-RPN是一种借助复数估计方向的欧拉回归方法。没有奇点的封闭数学空间允许稳健的角度预测。

我们的方法能够在一条前方道路上同时检测多个等级的物体(例如汽车、货车、行人、骑自行车的人、卡车、有轨电车、坐着的行人、其他)。这一新颖性使部署真正用于自驾汽车,并明显区别于其他车型。我们甚至在专用嵌入式平台Nvidia TX2(4 fps)上显示了实时功能。在未来的工作中,计划将高度信息添加到回归中,从而在空间中实现真正独立的三维对象检测,并在点云预处理中使用时间-空间相关性,以更好地区分类和提高精度。

Acknowledgement

首先,我们要感谢我们的主要雇主Valeo,特别是J?org Schrepfer和Johannes Petzold,他们给了我们做基础研究的可能性。此外,我们还要感谢我们的同事马克西米利安·贾里茨对体素一代的重要贡献。最后,我们要感谢我们的学术伙伴图伊曼努,他与我们有着卓有成效的合作关系。

References

1. Geiger, A.: Are we ready for autonomous driving? the kitti vision benchmark suite. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). CVPR ’12, Washington, DC, USA, IEEE Computer Society (2012) 3354{3361
2. Chen, X., Ma, H., Wan, J., Li, B., Xia, T.: Multi-view 3d object detection network for autonomous driving. CoRR abs/1611.07759 (2016)
3. Zhou, Y., Tuzel, O.: Voxelnet: End-to-end learning for point cloud based 3d object detection. CoRR abs/1711.06396 (2017)
4. Engelcke, M., Rao, D., Wang, D.Z., Tong, C.H., Posner, I.: Vote3deep: Fast object detection in 3d point clouds using efficient convolutional neural networks. CoRR abs/1609.06666 (2016)
5. Qi, C.R., Liu, W., Wu, C., Su, H., Guibas, L.J.: Frustum pointnets for 3d object detection from RGB-D data. CoRR abs/1711.08488 (2017)
6. Wang, D.Z., Posner, I.: Voting for voting in online point cloud object detection. In: Proceedings of Robotics: Science and Systems, Rome, Italy (July 2015)
7. Ku, J., Mozifian, M., Lee, J., Harakeh, A., Waslander, S.: Joint 3d proposal generation and object detection from view aggregation. arXiv preprint arXiv:1712.02294 (2017)
8. Li, B., Zhang, T., Xia, T.: Vehicle detection from 3d lidar using fully convolutional network. CoRR abs/1608.07916 (2016)
9. Li, B.: 3d fully convolutional network for vehicle detection in point cloud. CoRR  abs/1611.08069 (2016)
10. Qi, C.R., Su, H., Mo, K., Guibas, L.J.: Pointnet: Deep learning on point sets for 3d classification and segmentation. CoRR abs/1612.00593 (2016)
11. Qi, C.R., Yi, L., Su, H., Guibas, L.J.: Pointnet++: Deep hierarchical feature learning on point sets in a metric space. CoRR abs/1706.02413 (2017)
12. Redmon, J., Divvala, S.K., Girshick, R.B., Farhadi, A.: You only look once: Unified, real-time object detection. CoRR abs/1506.02640 (2015)
13. Redmon, J., Farhadi, A.: YOLO9000: better, faster, stronger. CoRR abs/1612.08242 (2016)
14. Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S.E., Fu, C., Berg, A.C.: SSD: single shot multibox detector. CoRR abs/1512.02325 (2015)
15. Ren, S., He, K., Girshick, R.B., Sun, J.: Faster R-CNN: towards real-time object detection with region proposal networks. CoRR abs/1506.01497 (2015)
16. Cai, Z., Fan, Q., Feris, R.S., Vasconcelos, N.: A unified multi-scale deep convolutional neural network for fast object detection. CoRR abs/1607.07155 (2016)
17. Ren, J.S.J., Chen, X., Liu, J., Sun, W., Pang, J., Yan, Q., Tai, Y., Xu, L.: Accurate single stage detector using recurrent rolling convolution. CoRR abs/1704.05776 (2017)
18. Chen, X., Kundu, K., Zhang, Z., Ma, H., Fidler, S., Urtasun, R.: Monocular 3d object detection for autonomous driving. In: IEEE CVPR. (2016)
19. Girshick, R.B., Donahue, J., Darrell, T., Malik, J.: Rich feature hierarchies for accurate object detection and semantic segmentation. CoRR abs/1311.2524 (2013)
20. He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. CoRR abs/1512.03385 (2015)
21. Chen, X., Kundu, K., Zhu, Y., Ma, H., Fidler, S., Urtasun, R.: 3d object proposals using stereo imagery for accurate object class detection. CoRR abs/1608.07711 (2016)
22. Girshick, R.B.: Fast R-CNN. CoRR abs/1504.08083 (2015)
23. Li, Y., Bu, R., Sun, M., Chen, B.: Pointcnn (2018)
24. Wang, Y., Sun, Y., Liu, Z., Sarma, S.E., Bronstein, M.M., Solomon, J.M.: Dynamic graph cnn for learning on point clouds (2018)
25. Xiang, Y., Choi, W., Lin, Y., Savarese, S.: Data-driven 3d voxel patterns for object category recognition. In: Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition. (2015)
26. Wu, Z., Song, S., Khosla, A., Tang, X., Xiao, J.: 3d shapenets for 2.5d object recognition and next-best-view prediction. CoRR abs/1406.5670 (2014)
27. Beyer, L., Hermans, A., Leibe, B.: Biternion nets: Continuous head pose regression from discrete training labels. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)
9358 (2015) 157{168
28. Redmon, J.: Darknet: Open source neural networks in c. http://pjreddie.com/ darknet/ (2013{2016)
29. Chen, X., Kundu, K., Zhu, Y., Berneshawi, A., Ma, H., Fidler, S., Urtasun, R.: 3d object proposals for accurate object class detection. In: NIPS. (2015)

                </div>

转自https://blog.csdn.net/weixin_36662031/article/details/86237800

추천

출처www.cnblogs.com/sdu20112013/p/11549618.html