05- 알고리즘 해석 R-CNN(표적 탐지)

주요 요점:

  • R-CNN은 대상 탐지에 딥 러닝을 사용한 선구적인 작업이라고 할 수 있습니다.


하나의 R-CNN 알고리즘

R-CNN은 대상 탐지에 딥 러닝을 사용한 선구적인 작업이라고 할 수 있습니다. 저자인 Ross Girshick 은 PAS C A L V O C 표적 탐지 대회에서 여러 번 우승했으며 팀을 2010년 에는 평생 공로상을 수상하도록 이끌었습니다 .

RCNN 알고리즘 프로세스는 4단계로 나눌 수 있습니다.

  • 하나의 이미지로 1K~2K 후보 영역 생성 (Selective Search 방식 사용)
  • 각 후보 지역 에 대해 심층 네트워크를 사용하여 특징 추출
  • 특징은 각 클래스의 SVM 분류기로 전송되어 해당 클래스에 속하는지 여부를 결정합니다.
  • 회귀자를 사용하여 후보 프레임의 위치를 ​​미세 조정합니다.

1.1 후보 지역 생성

선택적 검색 알고리즘을 사용하여 이미지 분할을 통해 일부 원래 영역을 얻은 다음 일부 병합 전략을 사용하여 이러한 영역을 병합하여 계층적 영역 구조를 얻고 이러한 구조에는 가능한 개체가 포함됩니다.

선택적 검색 알고리즘은 객체 감지를 기반으로 하는 이미지 분할 알고리즘으로 이미지를 여러 영역으로 나눌 수 있으며 각 영역은 질감, 색상 및 기타 특성이 유사합니다. 이 알고리즘은 물체 인식 및 감지와 같은 컴퓨터 비전 작업에 사용할 수 있습니다.

Selective Search 알고리즘의 핵심 아이디어는 유사한 작은 블록을 지속적으로 병합하여 더 큰 영역을 생성하는 것입니다. 구체적으로, 먼저 이미지를 많은 작은 블록으로 나눈 다음 이 작은 블록 간의 유사성을 계산하고 유사성이 높은 작은 블록을 더 큰 슈퍼픽셀로 병합합니다. 이 과정은 전체 이미지가 여러 슈퍼픽셀로 분할될 때까지 여러 번 반복됩니다.

선택적 검색 알고리즘에서 유사도 계산은 색상 히스토그램, 가장자리 밀도, 질감 등과 같은 다양한 방법을 사용할 수 있습니다. 또한 알고리즘의 효율성을 향상시키기 위해 Selective Search는 Felzenszwalb 및 Huttenlocher 알고리즘과 같은 빠른 이미지 분할 기술을 사용할 수도 있습니다.

궁극적으로 선택적 검색 알고리즘은 슈퍼픽셀 이미지를 생성하며 각 슈퍼픽셀은 유사한 특성을 가진 이미지 영역을 나타냅니다. 이 슈퍼픽셀 이미지는 물체 감지 및 인식과 같은 컴퓨터 비전 알고리즘의 입력으로 사용되어 정확도와 효율성을 높일 수 있습니다.

1.2 각 후보 영역에 대해 심층 네트워크를 사용하여 기능 추출

2000개의 후보 영역을 227x227pixel 로 스케일링한 다음 사전 훈련된 AlexNet CNN 네트워크 에 후보 영역을 입력하여 4096차원 특징을 얻어 2000 × 4096 차원 행렬을 얻습니다 .

1.3 특징은 카테고리를 결정하기 위해 각 카테고리의 SVM 분류기 로 전송됩니다.

2000×4096 차원의 특징에 20개의 SVM으로 구성된 가중치 행렬 4096×20을 곱하여 각 제안 상자가 특정 대상 범주의 점수임을 나타내는 2000×20 차원 행렬을 얻습니다. 위의 2000×20차원 행렬의 각 열, 즉 각 카테고리는 중복된 제안 상자를 제거하기 위해 비최대값 억제를 적용하고, 이 열, 즉 이 카테고리에서 가장 높은 점수를 받은 일부 제안 상자를 제거합니다. , 얻어진다.

2000 × 4096 특성 행렬에 20개의 SVM 으로 구성된 가중치 행렬 4096 × 20 을 곱하여 2000 × 20 확률 행렬을 구하고 각 행은 제안 상자가 각 대상 범주에 속할 확률을 나타냅니다. 위의 2000 × 20 차원 행렬의 각 열, 즉 각 카테고리는 중복된 제안 상자를 제거하기 위해 비최대값 억제를 거치며, 이 열, 즉 이 카테고리에서 가장 높은 점수를 받은 일부 제안 상자를 제거합니다. , 얻어진다 .  

IoU (Intersection over Union)  표시 (A∩B)/(A∪B)

1.4 회귀자를 사용하여 후보 프레임 의 위치 미세 조정

NMS 처리 후 남은 제안 상자는 추가로 선별됩니다. 그런 다음 20개의 회귀자를 사용하여 위의 20개 범주에서 나머지 제안 상자를 회귀시키고 최종적으로 각 범주에 대해 가장 높은 점수를 가진 수정된 경계 상자를 얻습니다.
그림에서와 같이 노란색 프레임 P는 제안 프레임 Region Proposal을 나타내고 녹색 창 G는 실제 프레임 Ground Truth를 나타내고 빨간색 창
Region Proposal이 선형 회귀에 대한 최소 제곱법으로 해결할 수 있는 회귀를 수행한 후 예측 창을 나타냅니다 .

 R - CNN 프레임워크

1.5 R -C NN 의 문제점

  1. 테스트 속도가 느립니다 . 사진을 테스트하는 데 약 53초(CPU) 가 걸립니다 . Selective Search 알고리즘 이용하여 후보 프레임을 추출하는데 걸리는 시간은 약 2 초 정도이며, 이미지에서 후보 프레임 간의 중복 이 많고 특징점 추출 작업이 중복된다 .
  2. 느린 교육 속도 : 프로세스가 매우 번거롭습니다.
  3. 훈련에 필요한 큰 공간 : SVM bbox 회귀 훈련을 위해서는 각 이미지의 각 대상 후보 상자 에서 특징을 추출하여 디스크에 기록해야 합니다. VGG16 과 같은 매우 깊은 네트워크의 경우 VOC07 훈련 세트 의 5k 이미지에서 추출한 기능 에는 수백 GB 의 스토리지가 필요 합니다 .

추천

출처blog.csdn.net/March_A/article/details/130566323