1.초록
세밀한 새 이미지 인식은 새 이미지의 정확한 분류를 달성하는 데 전념하며 로봇 시각적 추적의 기본 작업입니다. 멸종 위기에 처한 새를 보호하는 데 있어 멸종 위기에 처한 새를 모니터링하고 보존하는 것이 중요하다는 점을 고려하면, 새 모니터링을 촉진하기 위한 자동화된 방법이 필요합니다. 본 연구에서는 CNN과 Transformer 아키텍처를 Novel Feature Selection(FS) 모듈과 결합한 TBNet이라는 선호도 인식 모델을 채택하는 로봇 시각적 추적을 기반으로 하는 새로운 조류 모니터링 방법을 제안합니다. 구체적으로 CNN은 표면 정보를 추출하는 데 사용됩니다. Transformers를 사용하여 추상 의미 친화성을 개발합니다. FS 모듈은 식별 기능을 공개하기 위해 도입되었습니다 .
종합적인 실험에 따르면 해당 알고리즘은 cub-200-201 데이터 세트(91.0%)와 nabbirds 데이터 세트(90.9%) 모두에서 최첨단 성능을 달성할 수 있는 것으로 나타났습니다.
2. 질문
세밀한 새 이미지 인식은 로봇의 시각적 추적 및 이미지 처리를 위한 기본 작업입니다[1-3]. 인간의 개입 없이 로봇이 새를 자율적으로 추적하는 것은 멸종 위기에 처한 조류 보호에 매우 중요합니다. 현재 일부 멸종위기 새들은 환경 파괴의 위협으로 인해 멸종 위기에 처해 있습니다. 따라서 멸종위기 조류에 대한 모니터링과 보호는 조류 보존에 있어 매우 중요한 의미를 갖는다. 전 세계 조류 개체수의 거의 절반이 감소 추세에 있고, 그 중 13%가 '매우 심각한 상황'에 처해 있다는 점을 고려하면[4], 멸종위기 조류 보호에 대한 관심이 높아지고 있다. 조류 보호를 강화하기 위해 조류 개체수 모니터링이 연구 핫스팟이 되었습니다. 그러나 이는 열대 지방의 고온, 열대 우림의 높은 습도 등 극한의 현장 조건으로 인해 어려운 작업이었습니다. 전통적으로 조류 연구자들은 서식지에서 멸종 위기에 처한 조류에 대한 정보를 수동으로 관찰하고 기록하는데, 이는 시간이 많이 걸리고 노동 집약적인 작업입니다. 최근 인공지능의 발달과 함께 FBIC(Fine-grained Bird Image Classification)을 위한 딥러닝 방법이 많이 제안되고 있다. 따라서 조류 모니터링과 같은 다운스트림 작업이 실패합니다.
새의 모습을 주의 깊게 관찰함으로써 새의 다양한 부위 간의 친화성을 발견했으며 이는 FBIC 연구에 도움이 됩니다. 그림 1과 같이 새의 머리와 부리의 조합 또는 새의 머리, 날개, 꼬리의 색상 패턴입니다. 이러한 친화 관계는 FBIC의 판별 기능으로 사용될 수 있습니다.
2.1 발견
그러나 야생에서 새를 식별하는 것에도 몇 가지 어려움이 있습니다. 첫째, 극단적인 야생 환경으로 인해 이미지 품질이 달라질 수 있습니다. 예를 들어, 멀리서 촬영한 이미지는 해상도가 낮거나(그림 2(a)) 낮은 조명에서 촬영한 이미지(그림 2(a))로 나타날 수 있습니다. 2(b)), 둘째, 임의의 새 포즈가 있습니다. 예를 들어, 그림 2(e)와 그림 2(d)에서 볼 수 있듯이 첫 번째 이미지는 날아다니는 청어 갈매기를 보여주고, 두 번째 이미지는 서있는 청어 갈매기를 보여줍니다. 각 이미지에서 새들은 다른 모습을 보이는 것으로 보이며 이는 FBIC의 또 다른 어려움입니다. 셋째, 야생 배경의 은폐성과 복잡성으로 인해 새가 가지와 잎 사이에 있을 수도 있고(그림 2(e)), 가지에 의해 관찰될 수도(그림 2(f)), 이로 인해 새 이미지를 분류하는 데 어려움이 있었습니다. .
2.2 개발
새 이미지 간의 의미론적 장기 의존적 유사성을 식별하는 것이 매우 중요하기 때문에 Transformer는 본질적으로 이미지의 미시적 세밀한 세부 사항과 미시적 장기 의존적 의미 관계를 탐색하는 데 능숙한 언어입니다. Transformer[5]는 원래 자연어 처리에 사용되었습니다. 그러다가 컴퓨터 비전 분야에서 영감을 얻었습니다. Carion 등은[6] Transformer 기반의 end-to-end 타겟 탐지 방법을 제안하였고,[7]에서는 Dosovitskiy 등이 처음으로 적용한 Vision Transformer(ViT)를 제안하여 순수한 Transformer가임을 증명하였다. CNN과 경쟁할 수 있는 방식과 그 자리를 차지하고 있는 구조. 따라서 ViT 구조는 FBIC 작업의 유사성을 활용하기 위한 모델의 중추로 사용됩니다.
2.3 혁신
본 연구에서는 모이통, 새 둥지 또는 새 서식지 근처에 설치할 수 있는 스마트 조류 모니터링 로봇(그림 2)에 사용할 수 있는 방법을 제안합니다. 로봇은 수직 및 수평으로 회전하여 새를 감지할 수 있는 더 넓은 시야를 제공합니다. 로봇은 일정한 간격으로 이미지를 기록하여 이미지에서 새가 감지되면 빈도를 높입니다. 대형 로봇에는 대용량 배터리를 장착해 장기간 모니터링이 가능하며, 로봇 내부에는 실시간으로 새를 분류할 수 있는 TBNet 모델 프로그램 칩도 탑재됐다.
모니터링 기간 동안 연구용 새의 발생 빈도를 계산하고 기록합니다. 수집된 정보는 조류 연구자들이 조류 개체수를 추정하고 보존하는 데 사용될 수 있습니다. TBNet 모델은 새 이미지의 친화력 관계를 식별하여 새 이미지를 분류함으로써 하류 조류 개체수 추정을 용이하게 합니다. 요약하면, 본 연구의 주요 기여는 다음과 같다.
1) 조류 보호를 위한 새로운 로봇 시각적 추적 방법을 제안한다. 스마트 모니터링 로봇은 다른 방향으로 회전하고 새의 수를 기록할 수 있습니다.
2) 효과적인 TBNet 모델이 확립되었다. 우리가 아는 한, 이러한 유사성은 새 이미지에서 처음으로 드러났습니다. 따라서 ViT는 이러한 추상 의미 유사성을 활용하는 데 사용됩니다. CNN은 표면 정보를 추출하는 데 사용되며, 차별적인 특징을 밝히기 위해 FS 모듈이 도입됩니다. TBNet 모델의 특징 맵 생성을 위해 특징 추출 전략(CPG 전략)을 제안합니다.
3) CUB-200-2011과 NABirds라는 두 개의 새 데이터 세트에 대한 실험을 수행합니다. 제안된 TBNet은 기존의 여러 최첨단 방법에 비해 더 나은 성능을 달성하여 그 효율성을 검증합니다.
3.네트워크
3.1 전체 구조
TBNet 모델의 파이프라인은 그림 3에 나와 있습니다. 이 방법은 특징 추출 백본, FS 모듈 및 분류 헤드의 세 부분으로 구성됩니다 . 첫 번째 부분은 특징 추출 백본으로, 새 이미지의 세밀하고 다중 규모 정보를 추출하는 데 사용됩니다. 일반적으로 현재의 여러 백본[1-3,7]을 후보로 간주할 수 있습니다. CNN은 표면 정보 추출 능력이 뛰어나고 Transformer는 추상 의미 친화 관계 마이닝에 탁월하므로 본 연구에서는 CNN과 ViT의 조합을 백본으로 사용합니다 . 백본은 성능 향상을 위해 추가로 수정되었습니다. 과적합을 완화하기 위해 개발된 네트워크에는 백본의 분류 헤드에 드롭아웃 레이어가 있습니다. 두 번째 부분은 FS 모듈로, 특정 새의 변별적 특징을 추출합니다. 세 번째 부분은 분류 헤드로, 최종 분류를 위해 피처 맵이 최종적으로 사용됩니다.
1. CNN 네트워크를 사용하여 이미지의 예비 특징을 추출한 다음 이를 패치로 압축하고 vit 네트워크에 입력합니다. 이는 이미지의 전역 정보를 더 많이 유지할 수 있지만 동시에 일부 낮은 수준 레이어별 컨볼루션으로 인해 자세한 정보는 무시됩니다.
2. FS 모듈은 이미지 향상과 동일하며 트랜스포머 블록에서 기여도가 작은 영역을 제거하여 중요한 영역의 가중치를 증가시킵니다.
3.2 특징 맵 생성
특징 추출 백본을 통해 새 이미지를 처리하고 특징 맵을 생성합니다. 이 프로세스는 CNN 처리, 위치 임베딩, Transformer 블록 전달(CPG 전략)의 세 단계로 요약할 수 있습니다. 프로세스가 완료된 후 원본 입력 이미지는 분류를 위해 특징 맵으로 변환됩니다.
1단계: CNN 처리. 이 단계에서는 원본 입력 이미지를 처음에 CNN을 통해 처리하여 n개의 특징 맵을 생성합니다. 그런 다음 각 특징 맵 t를 1차원 벡터로 평탄화합니다. 다음으로 선형 투영을 적용하여 pt를 p[로 투영합니다. 이 과정은 다음과 같이 표현됩니다.
공식에서 pt는 i번째 패치, E는 선형 투영, i는 d차원 투영 시각적 벡터입니다.
2단계: 위치 삽입. Transformer 레이어는 입력 패치 시퀀스의 배열에 불변하므로 패치의 공간 위치와 관계를 인코딩하려면 위치 임베딩이 필요합니다. 특히 이러한 패치는 위치 임베딩을 통해 패치 벡터에 추가됩니다. 삽입 공식은 다음과 같습니다.
수식에서 는 패치 벡터로 구성된 행렬을 나타내며, n은 패치 수,
위치 임베딩을 나타냅니다. 위치 임베딩 유형은 2D 정현파, 학습 가능 및 상대 위치 임베딩 등 여러 옵션 중에서 선택할 수 있습니다.
3단계: Transformer 블록을 살펴보세요. 그런 다음 위치 임베딩 패치가 M Transformer 블록을 통과합니다. 각 Transformer 블록은 다음과 같이 계산됩니다.
여기서 l 과 는
각각 변압기 블록 1의 MSA 모듈과 MLP 모듈의 출력 패치 벡터입니다. LN(-)은 레이어 정규화를 나타냅니다. MLP는 여러 개의 완전히 연결된 레이어를 나타냅니다. MSA는 황소가 스스로를 감시한다는 것을 의미합니다. 이러한 변압기 블록은 N 레벨로 나눌 수 있습니다.
3.3 FS 모듈
원래 패치에는 분류에 해로운 해로운 기능이 도입될 수 있습니다. 그림 4는 Transformer 블록의 속성 매핑 목록을 보여줍니다. 마지막 단계에서는 차별 점수를 기준으로 특징 맵을 정렬합니다. 그림 4에서 볼 수 있듯이 1단계와 2단계와 같은 하위 수준에서는 Hits@k 특성이 서로 거의 유사하지 않은 반면, 점수가 낮은 특성은 거의 동일합니다. 단계 N과 같은 상위 계층에서는 Hits@k 기능이 더 유사하고 활성화되는 반면, 점수가 더 낮은 기능은 노이즈가 있는 것처럼 보입니다. 일반적으로 각 단계에서 높은 점수의 두드러진 특징이 낮은 점수의 두드러진 특징보다 더 중요합니다 . 따라서 우리는 이러한 고유한 기능이 제공하는 정보를 더욱 활용하고 파괴적인 기능으로 인한 손상 효과를 효과적으로 완화할 수 있는 FS 모듈을 제안합니다.
스테이지 i에서 출력이 Qj,ie[1,2,3,…,]로 표시되는 n개의 ID 패치 벡터라고 가정합니다. 먼저, FS 모듈은 n 벡터 간의 유사성을 계산합니다. 코사인 유사성 또는 L2 거리의 역수에서 유사성을 선택합니다. 코사인 유사성은 다음과 같이 정의됩니다.
여기서 F”와 G”는 두 벡터, Sc(F,G)∈[0,1]입니다. Sc의 값은 F와 g 사이의 유사성을 나타내며 L2 거리는 다음과 같이 구성됩니다.
여기서 "F"와 "G"는 두 개의 특징 벡터를 나타냅니다. 유사도 계산식은 다음과 같습니다.
그 중 , 는
각각 i번째와 j번째 패치 벡터를 나타냅니다.
Sc는 거리를 나타내는 코사인 유사성을 나타냅니다
. 유사도를 계산하면 유사도 행렬을 얻을 수 있다. 모든 패치 간의 유사성을 포함하는 유사성 매트릭스는 다음과 같이 표현될 수 있습니다.
둘째, 각 패치 벡터는 다른 패치 벡터에 유사도를 더하고 왕복 연산을 수행하여 판별 점수를 얻습니다. 운영식은 다음과 같습니다.
마지막으로 점수가 가장 높은 Hits@k(k) 패치 벡터가 선택되어 다음 레이어에 입력됩니다. 나머지 패치 벡터는 덜 식별력이 있기 때문에 삭제됩니다.
4. 실험
4.1 실험 설정
4.1.1 데이터세트
CUB-200-2011, NABirds
4.1.2 실험 세부사항
제안된 모델은 다음과 같은 방식으로 구현된다. 먼저 공정한 비교를 위해 입력 이미지 해상도의 크기를 448~448로 조정합니다. 효율성을 높이기 위해 배치 크기는 8로 설정됩니다. AdamW 최적화 프로그램이 사용되었으며 가중치 감쇠는 0.05입니다. 학습률은 0.0001로 초기화됩니다. 모든 실험은 PyTorch 도구 상자를 사용하여 Nvidia TITAN GPU에서 수행되었습니다.
4.2 비교시험
4.3 절제 실험
4.4 시각화
5. 결론
본 연구에서는 조류 보호 로봇의 새로운 시각적 추적 방법을 제안합니다. 스마트 모니터링 로봇은 다른 방향으로 회전하고 새의 수를 기록할 수 있습니다. 이를 바탕으로 효과적인 TBNet 모델이 구축됩니다. 우리가 아는 한, 새 이미지의 유사성은 처음으로 밝혀졌습니다. CNN은 피상적인 정보를 추출하는 데 사용됩니다. ViT를 사용하여 추상 의미 유사성 관계를 마이닝합니다. FS 모듈은 식별 기능을 공개하기 위해 도입되었습니다. TBNet 모델의 특징 맵 생성을 위해 특징 추출 전략(CPG 전략)을 제안합니다. 우리는 두 개의 FBIC 데이터 세트에서 TBNet을 테스트했습니다. 실험 결과는 이 방법이 새 이미지에서 친화력 관계와 차별적 특징을 식별할 수 있음을 보여줍니다. TBNet이 달성한 유망한 결과를 통해 로봇에 의한 새의 시각적 추적이 큰 잠재력을 가지고 있다고 믿는 것이 합리적입니다.