【논문 읽기】THFuse


논문: https://www.sciencedirect.com/science/article/abs/pii/S0925231223000437
침해 내용이 있는 경우 해당 블로거에게 문의하시기 바랍니다.

소개하다

CNN과 VIT를 기반으로 한 적외선 시각영상 융합에 관한 논문으로, 본 논문에서는 two-branch CNN 추출 모듈 방식과 기존 VIT와 교차채널 VIT를 결합하여 특징을 추출하는 방식을 제안하고 있다.

네트워크 아키텍처

여기에 이미지 설명을 삽입하세요.
전체 아키텍처는 위 그림과 같습니다. 여전히 매우 간단하고 명확하며 크게 세 가지 블록, 즉 다중 분기 CNN 특징 추출 블록, VIT 기반 전역 특징 추출 블록 및 이미지 재구성 블록으로 나눌 수 있습니다. .하나씩 살펴보겠습니다.

다중 분기 CNN 특징 추출 블록

여기에 이미지 설명을 삽입하세요.

현재 비전 기반 변환기가 다양한 작업에서 좋은 결과를 얻었지만 여전히 정보를 얻기 위해 변환기에만 의존할 수는 없으며 CNN에서 추출한 지역 정보도 매우 중요하므로 저자는 여전히 VIT를 연구하고 있습니다. 모듈에 CNN 블록을 추가했습니다.

전체적인 구조는 위 그림과 같으며 처음에 convolution 레이어가 있는 것을 볼 수 있는데, 주요 기능은 차원을 증가시키는 것이고, 이미지 데이터는 16차원으로 증가된다. 후처리된 데이터는 그림의 위쪽 및 아래쪽 분기에 해당하는 세부 추출 분기구조적 특징 추출 분기라는 두 가지 분기로 입력됩니다.

Detail Extraction Branch는 deepnet 구조를 사용하여 세부적인 특징을 추출하므로 컨볼루션 과정에서 디테일의 손실이 적습니다.여기서 사용하는 컨볼루션 방법은 패딩을 사용한 컨볼루션 , 즉 컨볼루션 후에도 이미지 크기가 변하지 않으므로 이 방법이 있습니다. 한 브랜치에서는 업샘플링 작업이 없으므로 다운샘플링 중 기능 정보 손실이 방지됩니다.

구조 추출 분기는 주로 이미지의 구조적 정보를 추출하는 데 사용되며, 이미지의 구조적 정보는 소규모 특징 정보에 더 잘 반영되는 경우가 많습니다 . 따라서 이 분기에 의해 수행되는 컨볼루션은 패딩을 사용하지 않으며 , 각 이후에는 컨볼루션을 수행하면 특징 정보가 절반으로 줄어듭니다. 이 분기에서 출력된 특징은 여전히 ​​세부 추출 분기의 특징과 접합되어야 하기 때문에 이 분기의 특징 정보는 여전히 원본 이미지와 동일한 크기로 업샘플링 된 다음 세부 추출 분기의 기능.

VIT 기반의 빠른 전역 특징 추출

여기에 이미지 설명을 삽입하세요.
이 모듈은 여전히 ​​매우 흥미롭습니다. 먼저 두 분기에 의해 생성된 특징에 대해 컨볼루션 작업을 수행한 다음 기존 VIT와 채널 수준 VIT를 포함하는 전역 특징 정보 추출 블록에 들어갑니다. 우리에게 익숙한 기존 VIT 는 먼저 이미지를 패치로 나눈 다음 각 패치를 벡터로 늘린 다음 이러한 벡터 사이의 변환기에서 작업을 수행하는 것입니다.

채널 수준 VIT는 이미지 채널 사이의 변환기에서 작업을 수행하므로채널 에는 다른 채널의 정보가 포함됩니다 .

이미지 재구성 블록

여기에 이미지 설명을 삽입하세요.
영상 재구성은 조금 길어 보일 수도 있지만 실제로는 매우 간단합니다.이전에 추출한 특징점의 차원을 단계별로 줄여가는 것을 의미하며, 최종적으로 차원이 1로 줄어들면 영상이 융합됩니다.

손실 함수

논문에서 사용하는 손실함수는 크게 두 부분으로 나눌 수 있는데, 첫 번째 부분은 픽셀 수준의 손실이고, 다른 하나는 특징 수준의 손실이며, 전체적인 손실함수는 아래 그림과 같습니다.
여기에 이미지 설명을 삽입하세요.
먼저 픽셀 수준의 손실을 살펴보면, 이 손실은 세 부분으로 구성되며, 이는 목표 강도 정보, 구조적 손실, 질감 정보의 손실을 보장하는 데 사용됩니다.
여기에 이미지 설명을 삽입하세요.
여기에 이미지 설명을 삽입하세요.
여기에 이미지 설명을 삽입하세요.

강도손실과 구조손실은 위와 같으니 길게 설명하지 않겠습니다. 익숙한 공식이고 주로 텍스쳐 정보입니다. 여기서 아주 흥미로운 처리가 있습니다.
여기에 이미지 설명을 삽입하세요.
이런 관점에서 보면 조금 헷갈리는 것 같습니다. , 하지만 이 공식을 Disassemble 이라고 넣을 수 있습니다.
첫 번째 부분을 분해한
여기에 이미지 설명을 삽입하세요.
다음 위치를 약간 변경합니다.
여기에 이미지 설명을 삽입하세요.
이때 공식은 융합된 이미지의 같은 지점 위와 아래의 두 픽셀의 차이를 원본 이미지와 비교하는 것이 됩니다. 그리고 우리는 이미지의 그래디언트가 인접한 픽셀에 의해 결정된다는 것을 알고 있습니다.픽셀 값의 차이로 표현하면 이 손실 함수는 융합된 이미지와 원본 이미지 간의 그래디언트가 최대한 유사하기를 희망한다는 것을 이해합니다. , 따라서 그래디언트 정보를 유지하는 목적을 달성합니다. 두 번째 부분은 여기에서도 동일합니다.

저자는 여기서 손실 함수의 또 다른 기능인 노이즈를 억제하는 기능도 언급했는데, 노이즈가 발생하면 , 즉 원본 이미지에 존재하지 않는 노이즈가 융합 이미지에 나타날 때 그래디언트가 크게 변한다는 것을 분명히 알고 있습니다. , 그런 다음 또한 원본 이미지에 존재하지 않는 그라데이션을 생성합니다 . 앞서 언급했듯이 이 손실 함수의 기능은 융합된 이미지와 원본 이미지 간의 그라데이션을 가능한 한 유사하게 만드는 것입니다. 또한 소음이 나타나는 것을 억제합니다.

다음 단계는 특징 수준 손실입니다. 이 부분은 AttentionFGAN에서 제안한 방법과 유사합니다. 여기서 저자는 아래와 같이 사전 훈련된 VGG19를 사용하여 융합 이미지의 특징을 추출합니다. 녹색 선은 시각적 이미지, 빨간색 선은 융합 이미지의 특징을 나타내고 파란색 선은 적외선 이미지의 특징을 나타냅니다. 저자는 텍스처 정보가 얕은 레이어에서 더 두드러지므로 얕은 레이어가 시각적 특징을 나타낸다고 생각합니다. 정보를 강조하기 위해 이미지와 융합 이미지를 비교하고 , 저자는 심층 정보에 있는 대상 정보가 더 두드러진다고 생각하므로 시각적 이미지와 융합 이미지의 심층 특징을 비교하여 질감 정보를 강조합니다.
여기에 이미지 설명을 삽입하세요.
기능 손실 함수는 다음과 같습니다
여기에 이미지 설명을 삽입하세요.

요약하다

전체 기사는 매우 매끄럽게 읽혔으며 다음과 같은 점이 매우 놀랍습니다.

  • 구조적 정보와 세부 정보를 추출하기 위해 2-branch CNN이 사용됩니다.
  • 첫 번째는 채널 레벨 변압기용입니다.
  • vgg19를 사용하여 융합 이미지와 비교를 위한 원본 이미지의 특징을 다시 얻어 융합 이미지에 더 많은 정보가 있도록 합니다.

읽고 나서 많은 것을 얻었고, 새로운 지식도 많이 얻었습니다.

다른 융합 이미지 논문 해석
==》논문 칼럼 읽어보시고 클릭해주세요》==

【논문 읽기】DIVFusion: 어둠이 없는 적외선 및 가시 이미지 융합

【读论文】RFN-Nest: 적외선 및 가시광선 이미지를 위한 엔드투엔드 잔류 융합 네트워크

【논문 읽기】DDcGAN

【读论文】적외선 및 가시광선 이미지 융합을 위한 자체 감독 기능 적용

【读论文】FusionGAN: 적외선 및 가시 이미지 융합을 위한 생성적 적대 네트워크

【读论文】DeepFuse: 극한 노출 이미지 쌍을 사용한 노출 융합을 위한 깊은 비지도 접근 방식

【读论文】DenseFuse: 적외선 및 가시광선 이미지에 대한 융합 접근 방식

참고

[1] THFuse: 변환기와 하이브리드 특징 추출기를 사용한 적외선 및 가시 이미지 융합 네트워크

추천

출처blog.csdn.net/qq_43627076/article/details/129241869