YOLOv1 중국어 번역(문장 번역)

한 번만 보면 됩니다: 통합 실시간 개체 감지

Joseph Redmon*, Santosh Divvala*†, Ross Girshick¶, Ali Farhadi*†
University of Washington*, Allen Institute for AI†, Facebook AI Research

요약

새로운 물체 감지 방법인 YOLO를 소개합니다. 개체 감지에 대한 이전 작업은 분류기를 용도 변경하여 감지를 수행합니다. 대신 공간적으로 분리된 경계 상자와 관련 클래스 확률이 있는 회귀 문제로 객체 감지를 처리합니다. 한 평가에서 단일 신경망은 전체 이미지에서 직접 경계 상자와 클래스 확률을 예측합니다. 전체 탐지 채널이 단일 네트워크이기 때문에 탐지 성능에 대한 엔드 투 엔드 최적화를 수행하는 것이 간단합니다.

우리의 통합 아키텍처는 매우 빠릅니다. 기본 YOLO 모델은 초당 45프레임으로 실시간으로 이미지를 처리합니다. 이 네트워크의 더 작은 버전: Fast YOLO는 초당 155프레임을 처리하여 놀랍도록 빠르면서도 다른 실시간 탐지기 mAP(mAP, 여기서 P(정밀) 정확도를 나타냄)의 두 배를 달성합니다. AP(Average 정밀도) 단일 클래스 레이블 평균(각 회수율에서 최대 정밀도의 평균), 정밀도율, mAP(Mean Average Precision) 모든 클래스 레이블의 평균 정밀도율). 가장 진보된 탐지 시스템과 비교하여 YOLO는 더 많은 포지셔닝 오류를 생성하지만 백그라운드에서 거짓 긍정을 예측할 가능성은 낮습니다(허위 긍정은 FP라고 하며 양성 샘플로 판단되지만 실제로는 음성입니다. 견본). 마지막으로 YOLO는 학습 객체 감지를 위한 일반적인 방법입니다. 자연 이미지에서 아트웍과 같은 다른 도메인으로 일반화할 때 DPM 및 R-CNN을 포함한 다른 감지 방법보다 성능이 뛰어납니다.

1. 소개

인간은 이미지를 흘끗 보고 이미지의 개체가 무엇인지, 어디에 있는지, 어떻게 상호 작용하는지 즉시 알 수 있습니다. 인간의 시각 시스템은 빠르고 정확하여 자각이 거의 또는 전혀 없이도 운전과 같은 복잡한 작업을 수행할 수 있습니다. 빠르고 정확한 물체 감지 알고리즘을 통해 컴퓨터는 특수 센서 없이 자동차를 운전할 수 있고, 보조 장치는 실시간 장면 정보를 사용자에게 전달할 수 있으며, 범용 반응형 로봇 시스템의 문을 열 수 있습니다.

현재 감지 시스템은 분류기를 용도 변경하여 감지를 수행합니다. 물체를 감지하기 위해 이러한 시스템은 물체를 분류하고 테스트 이미지의 다양한 위치와 크기에서 물체를 평가합니다. DPM(Deformable Part Models)과 같은 시스템은 분류자가 이미지 전체에 걸쳐 균일한 간격으로 실행되는 슬라이딩 윈도우 접근 방식을 사용합니다[10].

여기에 이미지 설명 삽입

그림 1: YOLO 감지 시스템. YOLO로 이미지를 처리하는 것은 간단하고 직관적입니다. 우리 시스템은 (1) 입력 이미지의 크기를 448×448로 조정하고, (2) 이미지에서 단일 컨볼루션 네트워크를 실행하고, (3) 모델의 신뢰도를 기반으로 결과 감지 임계값을 지정합니다.

R-CNN과 같은 최근의 일부 접근 방식은 먼저 가능한 범위의 경계 상자를 생성한 다음 이러한 경계 상자에서 분류기를 실행하는 영역 제안 접근 방식을 사용합니다. 분류 후 미세 경계 상자를 후처리하여 중복 감지를 제거하고 상자는 장면의 다른 객체에 대해 다시 점수를 매깁니다[13]. 이러한 복잡한 파이프라인은 각 부분을 개별적으로 교육해야 하므로 느리고 최적화하기 어렵습니다.

이미지 픽셀에서 경계 상자 좌표 및 클래스 확률로 직접 이동하는 단일 회귀 문제로 객체 감지를 재구성합니다. 우리 시스템을 사용하면 (YOLO) 이미지를 한 번만 보고 물체의 위치를 ​​예측할 수 있습니다.

YOLO는 매우 간단합니다. 그림 1을 참조하십시오. 단일 컨벌루션 네트워크는 여러 경계 상자와 해당 상자에 대한 클래스 확률을 동시에 예측합니다. YOLO는 전체 이미지를 학습하고 감지 성능을 직접 최적화합니다. 이 통합 모델은 기존의 물체 감지 방법에 비해 몇 가지 장점이 있습니다.

첫째, YOLO는 매우 빠릅니다. 탐지를 회귀 문제로 취급하기 때문에 복잡한 채널이 필요하지 않습니다. 테스트 시간에 새로운 이미지에 대해 신경망을 실행하여 감지를 예측합니다. 우리의 기본 네트워크는 Titan X GPU에서 일괄 처리 없이 초당 45프레임으로 실행되는 반면, 빠른 버전은 150fps 이상으로 실행됩니다. 즉, 25밀리초 미만의 대기 시간으로 스트리밍 비디오를 실시간으로 처리할 수 있습니다. 또한 YOLO는 다른 실시간 시스템의 평균 정확도의 두 배 이상을 달성합니다. 웹캠에서 실행되는 우리 시스템의 라이브 데모는 프로젝트 웹 페이지를 참조하십시오: http://pjreddie.com/yolo/.

둘째, YOLO는 예측할 때 이미지에 대한 전역 추론을 수행합니다. 슬라이딩 윈도우 및 제안 기반 기술과 달리 YOLO는 교육 및 테스트 중에 전체 이미지를 보기 때문에 클래스 및 모양에 대한 컨텍스트 정보를 암시적으로 인코딩합니다. 상위 감지 방법인 Fast R-CNN[14]은 더 큰 배경을 볼 수 없기 때문에 이미지의 배경 패치를 객체로 착각했습니다. Fsast R-CNN과 비교할 때 YOLO는 배경 오인이 절반 미만입니다.

셋째, YOLO는 객체의 일반화 가능한 표현을 학습합니다. YOLO는 자연 이미지에 대해 훈련되고 예술 작품에 대해 테스트될 때 DPM 및 R-CNN과 같은 최고의 감지 방법보다 훨씬 뛰어납니다. YOLO는 일반화 가능성이 높기 때문에 새로운 도메인이나 예상치 못한 입력에 적용할 때 충돌할 가능성이 적습니다.

YOLO는 여전히 정확도 면에서 최첨단 탐지 시스템에 뒤처져 있습니다. 이미지에서 개체를 빠르게 식별할 수 있지만 특정 개체, 특히 작은 개체를 정확히 찾아내는 데 어려움을 겪습니다. 실험에서 이러한 가중치를 추가로 조사합니다.

모든 교육 및 테스트 코드는 오픈 소스입니다. 사전 훈련된 다양한 모델도 다운로드할 수 있습니다.

2. 통합 감지

객체 감지의 다양한 부분을 단일 신경망으로 통합합니다. 우리 네트워크는 전체 이미지의 기능을 사용하여 각 경계 상자를 예측합니다. 또한 이미지의 모든 클래스에 대한 모든 경계 상자를 동시에 예측합니다. 이것은 우리의 네트워크가 전체 이미지와 이미지의 모든 개체에 대해 전역적 추론을 한다는 것을 의미합니다. YOLO 디자인은 높은 평균 정확도를 유지하면서 종단 간 교육 및 실시간 속도를 가능하게 합니다.

우리의 이미지 입력 ​​시스템은 S×S 그리드로 나뉩니다. 개체의 중심이 그리드 셀에 떨어지면 해당 그리드 셀이 개체 감지를 담당합니다.

각 그리드 셀은 B 경계 상자와 이러한 상자에 대한 신뢰도 점수를 예측합니다. 이러한 신뢰도 점수는 모델이 경계 상자에 개체가 포함되어 있다고 확신하는 정도와 경계 상자 예측이 얼마나 정확하다고 생각하는지를 반영합니다. 공식적으로 신뢰 수준을 정의합니다: . 해당 셀에 개체가 없으면 신뢰도 점수는 0이어야 합니다. 그렇지 않으면 신뢰도 점수가 예측된 상자와 ground truth 사이의 IOU(교차로 합집합)와 같기를 원합니다.

각 경계 상자는 x, y, w, h 및 신뢰도의 5가지 예측으로 구성됩니다. (x,y) 좌표는 그리드 셀 경계에 상대적인 직육면체의 중심을 나타냅니다. 너비와 높이는 전체 이미지를 기준으로 예측됩니다. 마지막으로 신뢰도 예측은 예측된 상자와 실측 상자 간의 IOU를 나타냅니다.

각 그리드 셀은 C 조건부 클래스 확률 Pr( Classi | Object )도 예측합니다. 이러한 확률은 개체를 포함하는 그리드 셀에 따라 결정됩니다. B 경계 상자의 수에 관계없이 각 그리드 셀에 대한 클래스 확률 집합만 예측합니다. 테스트 시간에 조건부 클래스 확률 관계와 개별 상자 신뢰도 예측을 곱합니다.

이는 각 경계 상자에 대한 클래스별 신뢰도 점수를 제공합니다. 이 점수는 클래스가 상자에 나타날 확률과 예측된 상자가 개체와 얼마나 잘 일치하는지 인코딩합니다.
여기에 이미지 설명 삽입

그림 2: 모델. 우리 시스템은 회귀 문제로 탐지를 모델링합니다. 이미지를 SxS 그리드로 나누고 경계 상자, 이러한 상자에 대한 신뢰도, 각 그리드 셀에 대한 클래스 확률을 예측합니다. 이러한 예측은 SxSx(B*5+C) 텐서로 인코딩됩니다.

PASCAL VOC에서 YOLO를 평가하기 위해 S=7, B=2를 사용합니다. PASCAL VOC에는 20개의 토큰 클래스가 있으므로 C=20입니다. 최종 예측은 7×7×30 텐서입니다.

2.1 네트워크 설계

모델을 컨볼루션 신경망으로 구현하고 PASCAL VOC 감지 데이터 세트에서 평가합니다[9]. 네트워크의 초기 컨벌루션 레이어는 이미지에서 특징을 추출하는 반면, 완전히 연결된 레이어는 출력 확률과 좌표를 예측합니다.

우리의 네트워크 아키텍처는 이미지 분류를 위한 GoogLeNet 모델에서 영감을 받았습니다[34]. 우리 네트워크에는 24개의 컨볼루션 레이어와 2개의 완전 연결 레이어가 있습니다. GoogLeNet에서 사용하는 인셉션 모듈과는 달리 Lin et al.[22]과 유사하게 1×1 축소 레이어와 3×3 공동 진화 레이어만 사용합니다. 전체 네트워크는 그림 3에 나와 있습니다.

우리는 또한 빠른 물체 감지의 한계를 뛰어넘도록 설계된 YOLO의 빠른 버전을 교육했습니다. Fast YOLO에서 사용하는 신경망은 더 적은 컨볼루션 레이어(24개 대신 9개)와 더 적은 필터를 가지고 있습니다. 네트워크의 크기를 제외하고 모든 학습 및 테스트 매개변수는 YOLO와 Fast YOLO에서 동일합니다.

여기에 이미지 설명 삽입

그림 3: 아키텍처. 우리의 탐지 네트워크는 24개의 컨볼루션 레이어와 2개의 완전히 연결된 레이어로 구성됩니다. 1×1 컨벌루션 레이어를 번갈아 사용하면 이전 레이어의 피처 공간이 줄어듭니다. 우리는 ImageNet 분류 작업에서 해상도의 절반(224×224 입력 이미지)으로 컨벌루션 레이어를 사전 훈련한 다음 감지 해상도를 두 배로 늘립니다.

우리 네트워크의 최종 출력은 예측의 7×7×30 텐서입니다.

2.2 훈련

우리는 ImageNet 1000 클래스 경쟁 데이터 세트 [30]에서 컨볼루션 레이어를 사전 훈련합니다. 사전 교육을 위해 그림 3의 처음 20개 컨볼루션 레이어를 사용하고 평균 풀링 레이어와 완전 연결 레이어를 사용합니다. 우리는 약 일주일 동안 네트워크를 훈련했고 Caffe Model Zoo [24]의 GoogLeNet 모델과 비교하여 ImageNet 2012 검증 세트에서 88% 단일 자르기 상위 5개 정확도를 달성했습니다. 우리는 모든 교육 및 추론에 Darknet을 사용합니다[26].

그런 다음 모델을 감지에 적용합니다. Ren 등은 미리 훈련된 네트워크에 컨벌루션 및 연결 레이어를 추가하면 성능이 향상된다는 것을 보여주었습니다[29]. 예제에 따라 임의로 초기화된 가중치를 사용하여 4개의 컨볼루션 레이어와 2개의 완전히 연결된 레이어를 추가합니다. 탐지에는 일반적으로 세분화된 시각적 정보가 필요하므로 네트워크의 입력 해상도를 224×224에서 448×448로 늘립니다.

마지막 레이어는 클래스 확률과 경계 상자 좌표를 예측합니다. 경계 상자의 너비와 높이를 이미지의 너비와 높이에 따라 0과 1 사이로 정규화합니다. 경계 상자 X 및 Y 좌표를 특정 그리드 셀 위치의 오프셋으로 매개변수화하므로 해당 경계도 0과 1 사이입니다.

우리는 마지막 레이어에 대해 선형 활성화 함수를 사용하고 다른 모든 레이어는 다음과 같은 누수 보정 선형 활성화를 사용합니다.
여기에 이미지 설명 삽입

모델 출력의 제곱 오차 합계를 최적화합니다. 최적화하기 쉽기 때문에 제곱 오차의 합을 사용하지만 평균 정밀도를 최대화하려는 목표에는 맞지 않습니다. 차선의 분류 오류와 동일하게 지역화 오류에 가중치를 부여합니다. 또한 각 이미지에서 많은 그리드 셀에 개체가 포함되어 있지 않습니다. 이는 이러한 셀의 "신뢰도" 점수를 0으로 밀어내며 개체를 포함하는 셀의 기울기를 초과하는 경우가 많습니다. 이로 인해 모델이 불안정해져 교육이 조기에 드리프트될 수 있습니다.

이 문제를 해결하기 위해 경계 상자 좌표 예측에 대한 손실을 늘리고 객체를 포함하지 않는 상자에 대한 신뢰 예측에 대한 손실을 줄입니다. 두 매개변수 λcoord 및 λnoobj를 사용하여 이를 수행합니다. λcoord=5 및 λnoobj=.5로 설정합니다.

제곱 오차의 합은 또한 큰 상자와 작은 상자의 오차에 동일한 가중치를 부여합니다. 우리의 오류 메트릭은 큰 상자의 작은 편차가 작은 상자의 작은 편차보다 더 중요하다는 것을 반영해야 합니다. 이 문제를 부분적으로 해결하기 위해 너비와 높이를 직접 예측하는 대신 경계 상자 너비와 높이의 제곱근을 예측합니다.

YOLO는 그리드 셀당 여러 경계 상자를 예측합니다. 훈련할 때 우리는 각 객체에 대해 하나의 경계 상자 예측자만 책임지기를 원합니다. 우리는 예측이 가장 높은 현재 ground-truth IOU를 갖는 객체를 예측하기 위해 "책임"이 있는 예측자를 지정합니다. 이는 경계 상자 예측기 사이의 전문화로 이어집니다. 각 예측자는 특정 치수, 종횡비 또는 객체 범주를 더 잘 예측하여 전반적인 재현율을 향상시킵니다.

교육 중에 손실 함수의 다음 부분을 최적화합니다.
여기에 이미지 설명 삽입

여기서 개체가 셀 그리드 i에 있는지 여부를 나타내며 그리드 i의 j번째 경계 상자 예측자가 해당 예측에 "책임" 있음을 나타냅니다.

손실 함수는 그리드 셀에 개체가 있는 경우에만 오분류에 페널티를 부여합니다(따라서 앞에서 설명한 조건부 클래스 확률). 또한 예측자가 ground-truth 상자에 대해 "책임 있는" 경우(즉, 해당 그리드 셀의 예측자 중 가장 높은 IOU를 갖는 경우) 경계 상자 좌표 오류에만 패널티를 부과합니다.

우리는 PASCAL VOC 2007 및 2012 훈련 및 검증 데이터 세트에서 약 135 에포크 동안 네트워크를 훈련했습니다. 2012년 테스트 시 교육용 VOC 2007 테스트 데이터도 포함했습니다. 교육 전반에 걸쳐 배치 크기 64, 모멘텀 0.9, 감쇠 0.0005를 사용합니다.

학습 속도 일정은 다음과 같습니다. 첫 번째 epoch에서 학습 속도를 10-3에서 10-2로 천천히 늘립니다. 높은 학습률로 학습을 시작하면 모델이 불안정한 그래디언트에서 벗어나는 경향이 있습니다. 우리는 10-2의 학습률로 75 epoch 동안 훈련을 계속한 다음 10-30의 학습률로 30 epoch 동안, 마지막으로 10-30의 학습률로 30 epoch 동안 훈련합니다.

과적합을 방지하기 위해 드롭아웃과 광범위한 데이터 확대를 사용합니다. 드롭아웃 레이어 비율은 첫 번째 연결된 레이어 이후에 0.5이므로 레이어 간의 상호 적응을 방지합니다[18]. 데이터 증대를 위해 무작위 스케일링 및 변환을 위해 원본 이미지 크기의 20%를 도입합니다. 또한 HSV 색 공간에서 이미지의 노출과 채도를 1.5로 무작위로 조정했습니다.

2.3 추론

학습에서와 마찬가지로 테스트 이미지에서 탐지를 예측하려면 네트워크 평가가 한 번만 필요합니다. PASCAL VOC에서 네트워크는 각각 클래스 확률이 있는 이미지당 98개의 경계 상자를 예측합니다. 분류기 기반 방법과 달리 YOLO는 단 한 번의 네트워크 평가만 필요하기 때문에 테스트 시간이 매우 빠릅니다.

그리드 디자인은 바운딩 박스 예측에서 공간적 다양성을 향상시킵니다. 일반적으로 객체가 속한 그리드 셀은 명확하며 네트워크는 객체당 하나의 상자만 예측합니다. 그러나 일부 큰 개체 또는 여러 셀 경계 근처의 개체는 여러 셀에 의해 잘 지역화될 수 있습니다. 최대가 아닌 억제를 사용하여 이러한 다중 감지를 수정할 수 있습니다. R-CNN 또는 DPM만큼 성능에 중요하지는 않지만 비최대 억제는 mAP를 23% 증가시킵니다.

2.4 YOLO의 한계

YOLO는 경계 상자 예측에 강력한 공간적 제약을 부과합니다. 각 그리드 셀은 두 개의 상자만 예측할 수 있고 하나의 클래스만 가질 수 있기 때문입니다. 이 공간적 제한은 우리 모델이 예측할 수 있는 근처 물체의 수를 제한합니다. 우리 모델은 새 무리와 같이 그룹으로 나타나는 작은 개체로 어려움을 겪습니다.

우리 모델은 데이터에서 경계 상자를 예측하는 방법을 배우기 때문에 새롭거나 특이한 종횡비 또는 구성을 가진 객체로 일반화하기가 어렵습니다. 우리 모델은 또한 우리 아키텍처가 입력 이미지로부터 다중 다운샘플링 레이어를 가지고 있기 때문에 경계 상자를 예측하기 위해 상대적으로 거친 기능을 사용합니다.

마지막으로, 탐지 성능을 근사화하는 손실 함수를 훈련할 때 손실 함수는 작은 경계 상자와 큰 경계 상자에 대해 동일한 방식으로 오류를 처리합니다. 큰 상자의 작은 오류는 일반적으로 무해하지만 작은 상자의 작은 오류는 IOU에 훨씬 더 큰 영향을 미칩니다. 오류의 주요 원인은 잘못된 위치 지정입니다.

3. 다른 탐지 시스템과의 비교

개체 감지는 컴퓨터 비전의 핵심 문제입니다. 검출 파이프라인은 일반적으로 입력 이미지에서 강력한 특징 세트(Haar[25], SIFT[23], HOG[4], 컨벌루션 특징[6])를 추출하는 것으로 시작합니다. 그런 다음 특징 공간에서 객체를 식별하기 위해 분류자[36, 21, 13, 10] 또는 지역화자[1, 32]가 사용됩니다. 이러한 분류기 또는 로컬라이저는 전체 이미지 에포크 또는 이미지 영역의 일부 하위 집합에 대해 슬라이딩 윈도우 방식으로 작동합니다[35, 15, 39]. YOLO 탐지 시스템을 여러 상위 탐지 프레임워크와 비교하여 주요 유사점과 차이점을 강조합니다.

변형 가능한 부품 모델. 변형 부품 모델(DPM)은 객체 감지를 위해 슬라이딩 윈도우 방식을 사용합니다[10]. DPM은 분리된 채널을 사용하여 정적 기능을 추출하고, 영역을 분류하고, 높은 점수 영역에 대한 경계 상자를 예측합니다. 우리 시스템은 이러한 모든 다른 부분을 단일 컨볼루션 신경망으로 대체합니다. 네트워크는 특징 추출, 경계 상자 예측, 최대가 아닌 억제 및 상황별 추론을 동시에 수행합니다. 정적 기능 대신 네트워크는 기능을 온라인으로 훈련하고 탐지 작업을 위해 최적화합니다. 통합 아키텍처로 인해 DPM에 비해 더 빠르고 정확한 모델이 생성됩니다.

R-CNN. R-CNN과 그 변형은 개체 이미지를 찾기 위해 슬라이딩 윈도우 대신 영역 제안을 사용합니다. Selective Search[35]는 잠재적인 경계 상자, 컨볼루션 네트워크 추출 기능, 지원 벡터 머신(SVM)은 상자 점수 예측, 선형 모델은 경계 상자를 조정하고 비최대 억제는 중복 감지를 제거합니다. 이 복잡한 파이프라인의 각 단계는 독립적으로 미세 조정되어야 하므로 시스템 감지 속도가 매우 느려 테스트 시간에 이미지당 40초 이상이 필요합니다[14].

YOLO는 R-CNN과 몇 가지 유사점을 공유합니다. 각 그리드 셀은 잠재적 경계 상자를 제안하고 컨벌루션 기능을 사용하여 이러한 상자에 점수를 매깁니다. 그러나 우리 시스템은 그리드 셀 체계에 공간적 제약을 부과하여 동일한 객체의 다중 감지를 줄이는 데 도움이 됩니다. 우리 시스템은 또한 선택적 검색의 약 2000개에 비해 이미지당 98개로 훨씬 적은 수의 경계 상자를 제안합니다. 마지막으로 우리 시스템은 이러한 개별 구성 요소를 공동으로 최적화된 단일 모델로 결합합니다.

다른 빠른 탐지기. Fast R-CNN 및 Faster R-CNN은 계산을 공유하고 선택적 검색 대신 신경망 제안을 사용하여 R-CNN 프레임워크의 감지 속도를 높이는 데 중점을 둡니다[14][28]. R-CNN에 비해 속도와 정확도가 향상되었지만 실시간 성능은 여전히 ​​만족스럽지 않습니다.

많은 연구 작업이 DPM 채널을 가속화하는 데 중점을 두었습니다[31][38][5]. HOG 계산 속도를 높이고 캐스케이드를 사용하며 계산을 GPU로 푸시합니다. 그러나 30Hz DPM [31]만이 실시간으로 실행할 수 있습니다.

YOLO는 대규모 탐지 파이프라인의 개별 구성 요소를 최적화하는 대신 파이프라인을 완전히 버리고 빠르게 설계되었습니다. 얼굴이나 사람과 같은 단일 클래스 감지기는 처리해야 하는 변동이 훨씬 작기 때문에 고도로 최적화될 수 있습니다[37]. YOLO는 여러 물체를 동시에 감지할 수 있는 범용 감지기입니다.

깊은 멀티박스. R-CNN과 달리 Szegedy 등은 선택적 검색을 사용하는 대신 관심 영역(RoI) [8]을 예측하기 위해 컨볼루션 신경망을 훈련합니다. MultiBox는 신뢰도 예측을 단일 클래스 예측으로 대체하여 단일 객체 감지를 수행할 수도 있습니다. 그러나 MultiBox는 일반적인 개체 감지를 수행할 수 없으며 여전히 더 큰 감지 파이프라인의 일부일 뿐이므로 추가 이미지 패치 분류가 필요합니다. YOLO와 MultiBox 모두 컨벌루션 네트워크를 사용하여 이미지의 경계 상자를 예측하지만 YOLO는 완전한 감지 시스템입니다.

오버피팅(OverFeat). Sermanet 등은 지역화를 위해 컨볼루션 신경망을 훈련하고 탐지를 위해 이 지역화 장치를 조정합니다[32]. 과적합은 슬라이딩 윈도우 감지를 효과적으로 수행하지만 여전히 분리된 시스템입니다. 과적합은 탐지 성능이 아닌 지역화를 최적화합니다. DPM과 마찬가지로 로케이터는 예측할 때 로컬 정보만 확인합니다. OverFeat는 전역 컨텍스트에 대해 추론할 수 없으므로 일관된 탐지를 생성하기 위해 광범위한 후처리가 필요합니다.

멀티그랩 우리의 작업은 Redmon et al.[27]의 파악 감지 작업과 디자인이 유사합니다. 메쉬 경계 상자 예측 방법은 회귀 파악을 위한 MultiGrasp 시스템을 기반으로 합니다. 그러나 파악 감지는 물체 감지보다 훨씬 간단합니다. MultiGrass는 하나의 객체를 포함하는 이미지에 대해 하나의 파악 가능한 영역만 예측하면 됩니다. 물체의 크기, 위치 또는 경계를 추정할 필요도 없고 물체의 범주를 예측할 필요도 없으며 잡기에 적합한 영역을 찾기만 하면 됩니다. YOLO는 이미지에서 여러 클래스의 여러 개체에 대한 경계 상자 및 클래스 확률을 예측합니다.

4. 실험

먼저 PASCAL VOC 2007에서 YOLO를 다른 실시간 탐지 시스템과 비교합니다. YOLO와 R-CNN 변형의 차이점을 이해하기 위해 R-CNN의 최고 성능 버전 중 하나인 VOC 2007에서 YOLO와 Fast R-CNN의 오류를 연구합니다[14]. 다양한 오류 패턴을 기반으로 우리는 YOLO를 사용하여 Fast R-CNN 탐지를 복원하고 백그라운드 오탐지 오류를 줄여 성능을 크게 향상시킬 수 있음을 보여줍니다. 또한 VOC 2012에 대한 결과를 제시하고 mAP를 현재 최신 방법과 비교합니다. 마지막으로 우리는 YOLO가 두 개의 아트워크 데이터 세트에서 다른 감지기보다 더 나은 새 도메인으로 일반화됨을 보여줍니다.

4.1 타 시스템과의 실시간 비교

개체 감지에 대한 많은 연구 작업은 표준 감지 파이프라인의 빠른 구현에 중점을 두었습니다. [5][38][31][14][17][28] 그러나 Sadeghi 등만이 실제로 실시간(초당 30프레임 이상)으로 실행되는 탐지 시스템을 생산했습니다[31]. 우리는 YOLO를 30Hz 또는 100Hz에서 실행되는 GPU의 DPM 구현과 비교했습니다. 다른 노력은 실시간 이정표에 도달하지 못했지만 상대 mAP와 속도를 비교하여 개체 감지 시스템에서 사용할 수 있는 정확도-성능 트레이드 오프를 조사합니다.
여기에 이미지 설명 삽입

표 1: PASCAL VOC 2007의 실시간 시스템. 빠른 감지기의 성능과 속도를 비교합니다. Fast YOLO는 PASCAL VOC 감지를 위한 기록상 가장 빠른 감지기이며 여전히 다른 실시간 감지기보다 두 배 빠릅니다. YOLO는 Fast 버전보다 10mAP 더 크지만 속도는 여전히 실시간보다 훨씬 빠릅니다.

Fast YOLO는 PASCAL에서 가장 빠른 물체 감지 방법이며, 우리가 아는 한 현존하는 가장 빠른 물체 감지기입니다. mAP 52.7%로 기존 실시간 탐지 작업보다 2배 이상 정확합니다. YOLO는 실시간 성능을 유지하면서 mAP를 63.4%로 높입니다.

또한 VGG-16을 사용하여 YOLO를 교육합니다. 이 모델은 더 정확하지만 YOLO보다 훨씬 느립니다. VGG-16에 의존하는 다른 탐지 시스템에 비해 유용하지만 실시간 시스템보다 느리기 때문에 이 백서의 나머지 부분에서는 더 빠른 모델에 중점을 둘 것입니다.

가장 빠른 DPM은 너무 많은 mAP를 희생하지 않고 효과적으로 DPM 속도를 높이지만 여전히 2배의 실시간 성능을 놓치고 있습니다[38]. 신경망 방법과 비교하여 DPM의 탐지 정확도는 상대적으로 낮고 그 적용도 제한됩니다.

R-CNN 빼기 R은 선택적 검색을 정적 경계 상자 방식으로 대체합니다[20].
R-CNN보다 빠르지만 여전히 실시간 성능이 부족하고 좋은 영역 제안이 없기 때문에 정확도가 크게 떨어집니다.

Fast R-CNN은 R-CNN의 분류 단계를 가속화하지만 여전히 선택적 검색에 의존하고 바운딩 박스 후보를 생성하는 데 이미지당 약 2초가 걸립니다. 따라서 mAP는 높지만 0.5fps에서는 실시간과는 거리가 멀다.

최근의 Faster R-CNN은 선택적 검색을 신경망으로 대체하고 Szegedy et al.[8]과 유사한 바운딩 박스를 제안합니다. 그들의 가장 정확한 모델은 테스트에서 7fps를 달성했지만 더 작고 정확한 모델은 18을 기록했습니다. fps.fps Faster R-CNN의 VGG-16 버전은 YOLO보다 10mAP 높지만 6배 느립니다. ZeilerFergus의 Faster R-CNN은 2fps에 불과합니다. YOLO보다 5배 느리지만 정확도도 떨어집니다.

4.2 VOC 2007 오류 분석

YOLO와 최신 탐지기의 차이점을 자세히 조사하기 위해 2007년 VOC 테스트 결과를 자세히 분석했습니다. YOLO를 Fast RCNN과 비교한 이유는 Fast R-CNN이 PASCAL에서 가장 성능이 좋은 감지기 중 하나이고 감지 데이터가 공개되어 있기 때문입니다.

우리는 각 클래스에 대한 테스트 시간에 해당 클래스에 대한 상위 N개의 예측을 보는 Hoiem et al.[19]의 방법과 도구를 사용합니다. 각 예측은 오류 유형에 따라 정확하거나 분류됩니다.

  • 정확함: 올바른 카테고리 및 IOU > .5
  • 현지화: 올바른 카테고리, .1<IOU<.5
  • 유사: 분류 유사, IOU > .1
  • 기타: 잘못된 카테고리, IOU>.1
  • 배경: 모든 개체에 대한 IOU < .1
    여기에 이미지 설명 삽입
    그림 4: 오류 분석: 빠른 R-CNN 대 YOLO 이 그래프는 서로 다른 클래스(N = 해당 클래스의 개체 수)에 대한 상위 N개의 탐지에서 지역화 및 배경 오류의 백분율을 보여줍니다.

그림 4는 20개 클래스 전체에서 평균화된 각 오류 유형의 분석을 보여줍니다.

YOLO는 가능한 한 정확하게 대상을 찾습니다. 지역화 오류는 다른 모든 소스를 합친 것보다 YOLO 오류의 더 큰 비율을 차지합니다. Fast R-CNN은 현지화 오류가 훨씬 적지만 배경 오류는 훨씬 많습니다. 상위 탐지의 13.6%는 개체가 포함되지 않은 오인식입니다. Fast R-CNN은 YOLO보다 배경 감지를 예측할 가능성이 거의 3배 더 높습니다.

4.3 고속 R-CNN과 YOLO 결합

YOLO는 Fast R-CNN보다 백그라운드 오류가 훨씬 적습니다. YOLO를 사용하여 Fast R-CNN의 백그라운드 감지를 제거함으로써 상당한 성능 향상을 얻을 수 있습니다. R-CNN이 예측한 각 경계 상자에 대해 YOLO가 유사한 상자를 예측했는지 확인합니다. 그렇다면 YOLO가 예측한 확률과 두 상자 사이의 중첩을 기반으로 예측을 개선합니다.

VOC 2007 테스트 세트에서 최고의 Fast R-CNN 모델의 mAP는 71.8%입니다. YOLO와 결합했을 때 mAP는 3.2% 증가한 75.0%였다. 우리는 또한 최고의 Fast R-CNN 모델을 Fast R-CNN의 여러 다른 버전과 결합하려고 시도했습니다. 이러한 조합은 표 2에 자세히 설명된 대로 0.3%에서 0.6% 사이의 mAP 증가를 가져왔습니다.
여기에 이미지 설명 삽입

표 2: 2007년 VOC 모델 조합 테스트. Fast R-CNN의 최상의 버전으로 다양한 모델을 결합했을 때의 효과를 연구합니다. Fast R-CNN의 다른 버전은 작은 이점만 제공하는 반면 YOLO는 상당한 성능 향상을 제공합니다.

다른 버전의 Fast R-CNN을 결합하는 이점이 거의 없기 때문에 YOLO가 가져온 개선 사항은 모델 통합의 부산물이 아닙니다. 반대로 Fast R-CNN의 성능을 효과적으로 향상시키는 것은 YOLO가 테스트 시간에 모든 종류의 실수를 범하기 때문입니다.

안타깝게도 이 조합은 각 모델을 개별적으로 실행한 다음 결과를 결합하기 때문에 YOLO 속도의 이점을 얻지 못합니다. 그러나 YOLO는 매우 빠르기 때문에 Fast R-CNN에 비해 상당한 계산 시간을 추가하지 않습니다.

4.4 VOC 2012 결과

2012년 VOC 테스트에서 YOLO는 57.9%의 mAP를 달성했습니다. 이것은 최신 기술보다 낮고 VGG-16을 사용하는 원래 R-CNN에 더 가깝습니다(표 3 참조). 가장 가까운 경쟁자와 비교할 때 우리 시스템은 작은 개체로 어려움을 겪습니다. 병, 양, TV/모니터와 같은 카테고리에서 YOLO는 R-CNN 또는 Feature Edit보다 8-10% 낮은 점수를 받았습니다. 그러나 고양이와 기차 YOLO와 같은 다른 범주에서는 성능이 더 높습니다.
여기에 이미지 설명 삽입
표 3: PASCALVOC 2012 순위표. YOLO는 2015년 11월 6일자로 fullcomp4(외부 데이터 허용) 공개 리더보드와 비교되었습니다. 다양한 검출 방법의 평균 정밀도와 클래스별 평균 정밀도가 표시됩니다. YOLO는 유일한 실시간 탐지기입니다. Fast R-CNN YOLO는 Faster R-CNN에 비해 2.3%의 점수로 네 번째로 높은 스코어링 방법입니다.

4.5 개요: 아트워크에서 사람 감지

개체 감지를 위한 학술 데이터 세트는 동일한 분포에서 훈련 및 테스트 데이터를 가져옵니다. 실제 애플리케이션에서는 가능한 모든 사용 사례를 예측하기 어렵고 테스트 데이터는 시스템에서 이전에 본 것과 다를 수 있습니다[3]. 우리는 YOLO를 Picasso 데이터 세트 [12] 및 People Art 데이터 세트 [3]의 다른 감지 시스템과 비교하여 예술 작품에서 사람 감지를 테스트하는 데 사용합니다.

그림 5는 YOLO와 다른 탐지 방법 간의 비교 성능을 보여줍니다. 참고로 우리는 모든 모델이 VOC 2007 데이터에서만 훈련되는 VOC 2007 탐지 AP onPerson을 제시합니다. Picasso의 경우 모델은 VOC 2012에서 훈련되었으며 캐릭터 아트의 경우 모델은 VOC 2010에서 훈련되었습니다.

R-CNN은 2007년 VOC에 대해 높은 AP를 가지고 있습니다. 그러나 R-CNN을 아트웍에 적용하면 크게 떨어집니다. R-CNN은 자연 이미지에 맞게 조정된 선택적 검색 경계 상자 체계를 사용합니다. R-CNN의 분류기 단계는 작은 영역만 보고 좋은 제안이 필요합니다.

DPM은 아트웍에 적용할 때 AP를 잘 유지합니다. 이전 연구에서는 DPM이 개체의 모양과 레이아웃에 대한 강력한 공간 모델을 가지고 있기 때문에 잘 수행된다는 이론을 세웠습니다. DPM의 성능은 R-CNN만큼 좋지는 않지만 낮은 AP에서 시작합니다.

YOLO는 VOC 2007에서 매우 좋은 성능을 보이며 작품에 사용할 때 다른 방법보다 AP 저하가 적습니다. DPM과 마찬가지로 YOLO는 개체의 크기와 모양, 개체 간의 관계, 개체가 일반적으로 나타나는 위치를 모델링합니다. 아트웍과 자연 이미지는 픽셀 수준에서 매우 다르지만 개체 크기와 모양 면에서는 유사하므로 YOLO는 여전히 좋은 경계 상자와 감지를 예측할 수 있습니다.

여기에 이미지 설명 삽입

(a) Picasso 데이터세트의 정밀도-재현율 곡선
(b) VOC 2007, Picasso 및 Character Art 데이터세트의 정량적 결과. Picasso 데이터 세트는 AP 및 Best F1 점수를 기반으로 평가됩니다.

5. 현장에서 실시간 감지

YOLO는 컴퓨터 비전 애플리케이션에 이상적인 빠르고 정확한 물체 감지기입니다. YOLO를 웹캠에 연결하고 카메라에서 이미지를 획득하고 감지 결과를 표시하는 시간을 포함하여 실시간 성능을 유지하는지 확인합니다.

여기에 이미지 설명 삽입
그림 6: 정성적 결과. YOLO는 웹의 예술 작품 샘플과 자연 이미지를 사용합니다. 사람이 비행기라고 생각하지만 대체로 정확합니다.
결과 시스템은 대화식이며 매력적입니다. YOLO는 이미지만 처리하지만 웹캠에 연결하면 추적 시스템처럼 기능하여 물체가 움직이고 모양이 변하는 것을 감지합니다. 시스템의 데모 및 소스 코드는 프로젝트 웹 사이트(http://pjreddie.com/yolo/)에서 확인할 수 있습니다.

6 결론

객체 감지를 위한 통합 모델인 YOLO를 소개합니다. 우리의 모델은 구성이 간단하고 전체 이미지에서 직접 훈련할 수 있습니다. 분류기 기반 방법과 달리 YOLO는 탐지 성능과 직접적으로 일치하는 손실 함수를 기반으로 학습되며 전체 모델이 동기식으로 학습됩니다.

Fast YOLO는 문헌에서 가장 빠른 범용 물체 감지기이며 YOLO는 실시간 물체 감지 기술의 개발을 촉진합니다. YOLO는 또한 새로운 도메인으로 잘 일반화되어 빠르고 강력한 객체 감지에 의존하는 애플리케이션에 이상적입니다.

감사의 말: 이 작업은 ONR N00014-13-1-0720, NSF IIS-1338054 및 Allen Distinguished Investigator Award에 의해 부분적으로 지원되었습니다.

참조

MB 블라슈코와 CH 램퍼트. 구조화된 출력 회귀로 개체를 현지화하는 방법을 학습합니다. InComputer Vision–ECCV 2008, 2–15페이지. 스프링거, 2008.4
[2]L. Bourdev와 J. Malik. Poselets: 3d 인간 포즈 주석을 사용하여 변형된 신체 부위 검출기. InInternationalConference on Computer Vision(ICCV), 2009.8
[3]아. Cai, Q. Wu, T. Corradi 및 P. 홀. 교차 묘사 문제: 예술 작품과 사진에서 물체를 인식하기 위한 컴퓨터 비전 알고리즘.arXiv preprint arXiv:1505.00110, 2015.7
[4]N. Dalal과 B. Triggs. 인간 감지를 위한 지향 기울기의 히스토그램. InComputer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, 1권, 886–893페이지. IEEE, 2005.4,8
[5]T. Dean, M. Ruzon, M. Segal, J. Shlens, S. Vijaya narasimhan, J. Yagnik, et al. 단일 시스템에서 100,000개의 개체 클래스를 빠르고 정확하게 탐지합니다. CVPR(Computer Vision and Pattern Recognition), 2013 IEEE 컨퍼런스, 1814–1821페이지. IEEE, 2013.5
[6]J. 도나휴, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang, E. T zeng 및 T. Darrell. Decaf: 일반 시각적 인식을 위한 심층 컨벌루션 활성화 기능.arXiv preprint arXiv:1310.1531, 2013.4
[7]J. Dong, Q. Chen, S. Yan 및 A. Yuille. 통합된 객체 감지 및 시맨틱 분할을 향하여. InComputer Vision–ECCV 2014, 299–314페이지. 스프링거, 2014.7
디. Erhan, C. Szegedy, A. Toshev 및 D. Anguelov. 심층 신경망을 사용한 확장 가능한 객체 감지. CVPR(InComputer Vision and Pattern Recognition), 2014 IEEE 컨퍼런스, 2155–2162페이지. IEEE, 2014.5,6
[9]M. Everingham, SMA Eslami, L. V an Gool, CKI Williams, J. Winn 및 A. Zisserman. 파스칼 시각적 객체 클래스 챌린지: A retrospective.International Journal of Computer Vision, 111(1):98–136, Jan. 2015.2
[10]P . F. Felzenszwalb, RB Girshick, D. McAllester 및 D. Ramanan. 차별적으로 훈련된 부분 기반 모델을 사용한 물체 감지. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32(9):1627–1645, 2010.1,4
[11]S. Gidaris 및 N. Komodakis. 다중 영역 및 시맨틱 분할 인식 CNN 모델을 통한 객체 감지.CoRR, abs/1505.01749, 2015.7
S. Ginosar, D. Haas, T. Brown 및 J. Malik. 입체파 예술에서 사람을 감지합니다. Computer Vision-ECCV 2014 워크숍, 101–116페이지. 스프링거, 2014.7
[13]R. Girshick, J. Donahue, T. Darrell 및 J. Malik. 정확한 객체 감지 및 시맨틱 분할을 위한 풍부한 기능 계층. CVPR(InComputer Vision and Pattern Recognition), 2014 IEEE 컨퍼런스, 580–587페이지. IEEE,2014.1,4,7
[14]RB 거쉬크. 빠른 R-CNN.CoRR, abs/1504.08083, 2015.2,5,6,7
[15]S. 굴드, T. 가오, D. 콜러. 지역 기반 세분화 및 객체 감지. 신경 정보 처리 시스템의 발전, 페이지 655–663, 2009.4
[16]B. 하리하란, P. Arbeláez, R. Girshick 및 J. Malik. 동시 감지 및 분할. InComputer Vision ECCV 2014, 297–312페이지. 스프링거, 2014.7
케이. He, X. Zhang, S. Ren, J. Sun. 시각적 인식을 위한 깊은 컨볼루션 네트워크의 공간 피라미드 풀링.arXiv preprint arXiv:1406.4729, 2014.5
[18]GE Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever 및 RR Salakhutdinov. 특징 검출기의 공동 적응을 방지하여 신경망 개선.arXiv preprint arXiv:1207.0580, 2012.4
[19]D. Hoiem, Y. Chodpathumwan 및 Q. Dai. 개체 감지기의 오류 진단. InComputer Vision–ECCV 2012, 340–353페이지. 스프링거, 2012.6
[20]K. Lenc 및 A.Vedaldi. R-cnn 빼기 r.arXiv 프리프린트 arXiv:1506.06981, 2015.5,6
[21]R. Lienhart 및 J. Maydt. 신속한 물체 감지를 위한 확장된 털 모양의 기능 세트입니다. 인이미지 처리. 2002. 절차. 2002년 국제 회의, 1권, I–900페이지. IEEE, 2002.4
M. Lin, Q. Chen 및 S. Yan. network.CoRR의 네트워크, abs/1312.4400, 2013.2
[23]DG Lowe. 로컬 스케일 불변 기능에서 객체 인식. InComputer vision, 1999. 제7회 IEEE 국제 회의 진행, 2권, 1150-1157페이지. Ieee, 1999.4
[24]D. Mishkin. imagenet 2012 val.https://github.com/BVLC/caffe/wiki/Models-accuracy-on-ImageNet-2012-val의 모델 정확도. 접근: 2015-10-2.3
[25]C. 피. Papageorgiou, M. Oren 및 T. Poggio. 객체 감지를 위한 일반적인 프레임워크입니다. InComputer vision, 1998. 여섯 번째 국제 회의, 555–562페이지. IEEE, 1998.4
[26]J. 레드몬. Darknet: c.http://pjreddie.com/darknet/의 오픈 소스 신경망, 2013–2016.3
J. 레드몬과 A. 안젤로바. 합성곱 신경망을 이용한 실시간 파악 감지.CoRR, abs/1412.3128, 2014.5
[28]S. Ren, K. He, R. Girshick 및 J. Sun. 더 빠른 r-cnn: 영역 제안 네트워크를 통한 실시간 개체 감지를 향하여.arXiv preprint arXiv:1506.01497, 2015.5,6,7
[29]S. Ren, K. He, RB Girshick, X. Zhang, J. Sun. 컨벌루션 특징 맵의 객체 감지 네트워크.CoRR, abs/1504.06066, 2015.3,7
[30]O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, AC Berg 및 L. Fei-Fei. ImageNet Large Scale Visual Recognition Challenge.International Journal of Computer Vision (IJCV), 2015.3
MA Sadeghi 및 D. Forsyth. dpm v5를 사용한 30hz 객체 감지. InComputer Vision–ECCV 2014, 65–79페이지. 스프링거, 2014.5,6
[32]피. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus 및 Y. 르쿤. Overfeat: 컨볼루션 네트워크를 사용한 통합 인식, 위치 파악 및 감지.CoRR, abs/1312.6229, 2013.4,5
[33]Z. Shen과 X. Xue. 더 나은 개체 감지를 위해 pool5 기능 맵에서 더 많은 드롭아웃을 수행합니다.arXiv preprint arXiv:1409.6911,2014.7
[34]C. Szegedy, W. Liu, Y. 지아, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. V anhoucke 및 A. Rabinovich. convolutions.CoRR, abs/1409.4842,2014.2에 대해 자세히 알아보기
JR Uijlings, KE van de Sande, T. Gevers 및 AW Smeulders. 객체 인식을 위한 선택적 검색.International Journal of Computer Vision, 104(2):154–171, 2013.4
[36]P . 비올라와 M. 존스. 강력한 실시간 개체 감지. 국제 컴퓨터 비전 저널, 4:34–47, 2001.4
[37]P . 비올라와 MJ 존스. 강력한 실시간 얼굴 감지. 컴퓨터 비전 국제 저널, 57(2):137–154, 2004.5
[38]J. Yan, Z. Lei, L. Wen 및 SZ Li. 물체 감지를 위한 가장 빠른 변형 부품 모델. CVPR(InComputer Vision and Pattern Recognition), 2014 IEEE 컨퍼런스, 2497–2504페이지. IEEE, 2014.5,6
[39]CL Zitnick 및 P. 달러. 에지 박스: 에지에서 개체 제안 찾기. InComputer Vision–ECCV 2014, 391–405페이지. 스프링거, 2014.4

원문연접: You Only Look Once: Unified, Real-Time Object Detection
<!-- >

추천

출처blog.csdn.net/qq_46248455/article/details/124666616