논문 읽기 | 초점 손실

원제 : 조밀 한 객체 인식에 대한 초점 손실

요약

두 가지 주요 표적 탐지 프레임 검출기 (1 단) 및 두 개의 검출기 (이단) 검출기, 간단한 구조, 높은 속도이지만 속도가 훨씬 덜 정확 두 레벨 검출기. 저자는이 두 가지 범주의 전경과 배경의 주된 이유는 샘플 수에 큰 불균형이 있음을 발견했다. 저자는이 불균형에 대한 해결책은, 샘플 손실이 적은 수에 초점을 분류하기 어렵다 샘플 분류의 생산 억제에 쉽게 그것을 만들기, 크로스 엔트로피 손실을 개선 제안한다. 한편, 저자는 유명한 RetinaNet를 만들어,이 네트워크는 빠른 속도와 더 나은 두 검출기에 비해 낮은 정확도뿐만 아니라, 좋은 표적 탐지 네트워크입니다.

초점 손실

일반적으로, 샘플을 분류하는 경우,이 분류는 샘플 쉽게, 예를 들면, 그 손실의 관점에서 대응하는 98 %의 확률은 작을 것이다. 샘플의 주요 불균형의 존재가 큰 비율에 대한 계정을 쉽게 분류 샘플 수, 그때는 손실이 대부분을 차지합니다 발생한다면 상황은 샘플의 분류가 손실을 차지 어렵게 만들 것이다,이 모델 어려운 훈련을 만드는 작은 비율.
저자는 따라서 샘플 불균형의 문제를 해결하기 위해, 초점 손실을 제안한다.
$$
FL (P_T) = - (. P_T 1) ^ RLOG (P_T)
$$

RetinaNet 네트워크 구조

retinaNet 간단하고 일관성있는 네트워크이고, 이는 백본 네트워크 (백본) 및 특정 태스크 두 서브 네트워크를 갖는다. 추출 기능에 사용되는 백본 네트워크는 기성품의 많은 직접 사용할 수 있습니다. 첫 번째 서브 네트워크는 분류 작업 검토 작업을 수행 할 수있는 두 번째 단어 네트워크를 수행 할 수 있습니다.
retinanet

1.backbone

백본으로 피라미드합니다 (FPN)의 특성을 사용하면, 서로 다른 스케일의 특징을 추출 할 수 있습니다. 피라미드의 각 층은 물체를 검출 할 수 있고, 크고 작은 물체를 검출 할 수있다 갖추고, 작은 객체는 큰 특징을 검출 할 수있다.
P7의 P3의 피라미드의 구성에 따라 FPN의 resnet (입력 화상 $ 2 ^ L $으로 배의 크기보다 작은 $ $ P_L). 피라미드의 모든 층들은 256 개 개의 채널이있다.

2.Anchors

  • 병진 불변 속성을 사용 앵커. 그들은 P3에 대응 P7, $ 32 $ (512) ^ 2 ^ $ 2 $까지 크기가 다양. 3 종횡비 {2,1 : 1,2 : 1}을 이용하여 앵커 세 크기 비율 $ 2 ^ {0,2} ^ {1/3, 2/3} ^ {2} $를 사용. 이러한 구성은 AP를 향상시킬 수있다. 각각의 앵커 위치 번호 A = 3 × 3 = 9.
  • 앵커 각 핫 인코딩 K의 길이에 할당되는, K는 배경 클래스를 포함 카테고리의 수이다. 길이 사이즈의 벡터를 지정하고 대표 프레임 (4)의 위치.
  • 전면 블록이 0.5보다 큰 IOU가 설정되고, 배경 프레임 IOU 적은 0.4 이상, 다른 것은 무시된다. 앵커는 각각 별도로 구분 1, 0에 대응하는 하나의 - 핫 엔코딩을 갖는다.

    3. 분류 서브 네트워크

    이것은 작은 완전 컨볼 루션 신경망, 예측 KA를 생성 각각의 공간 위치가 K의 카테고리 개수이고, A는 앵커 (9)의 수이다.
    참고 : 하나의 분류 서브 네트워크, 피라미드의 모든 레이어는 네트워크를 공유하는 매개 변수입니다. 다음 단계 : 피라미드 C에서 특징 추출은 (256) 채널이, 각 층의 컨볼 루션은 최종 3X3 (KA) 채널 컨볼 루션 다음 컨벌루션 커널에 사용되는 4 개의 서브 네트워크 계층 컨벌루션있다. 레이어.

    4. 반환 서브 네트워크

    그것은 또한 완전 컨볼 루션 신경망이며, 서브 네트워크의 분류는 병렬 존재, 그 작업은 회귀 (있는 경우, 진정한 가치) 상자와 가장 가까운 선 상자를 예측하는 것입니다. 이것은 각각의 공간 위치에서도 4a를 예측했다. 다른 방법과는 달리, 분류의 반환이 방법은 알 수없는 독립적이다. 이는 적은 수의 매개 변수가 있지만 동등한 효과를 사용합니다.

    추론 및 교육

    추론하다

    속도를 증가시키기 위해, 임계 값은 회귀 예측 블록의 가장 높은 지점 전에 최대 1000 0.05로 설정된다. 마지막으로, 비 - 최대 억제 문턱 값을 이용하여 융합 예측기의 모든 레벨은 0.5이다.

    초점 손실

    좋은 효과 초점 손실 100 000 앵커 각 사진에 사용되는 경우는 R = 2, 초점 손실은 100,000 앵커 (정규화 후) 및 손실이 발생한다는 것이다. 파라미터는 안정 범위를 갖는다. 이러한 두 파라미터는 비례 관계를 역.

    초기화

    컨볼 루션의 마지막 층, B = 0으로 모든 층의 컨벌루션 가우시안 0.01 중량 제외. 마지막 컨벌루션 층, (B)의 설정이 다른,이 훈련은 불안정한 현상을 시작할 때 피하는 것이다

    실험 결과

    그림 삽입 설명 여기

추천

출처www.cnblogs.com/wupeng1131/p/12144247.html