딥 러닝 논문: PE-YOLO: 어두운 물체 감지를 위한 피라미드 강화 네트워크 및 PyTorch 구현

딥 러닝 문서: PE-YOLO: 어두운 물체 감지를 위한 피라미드 강화 네트워크 및 해당 PyTorch 구현
PE-YOLO: 어두운 물체 감지를 위한 피라미드 강화 네트워크
PDF: https://arxiv.org/pdf/2307.10953v1.pdf
PyTorch 코드: https //github.com/shanglianlm0525/CvPytorch
PyTorch 코드: https://github.com/shanglianlm0525/PyTorch-Networks

1. 개요

현재 객체 감지 모델은 많은 벤치마크 데이터세트에서 좋은 결과를 달성하지만 어두운 조건에서 객체를 감지하는 것은 여전히 ​​큰 과제로 남아 있습니다. 이 문제를 해결하기 위해 우리는 PENet(Pyramid Enhanced Network)을 제안하고 이를 YOLOv3와 결합하여 PE-YOLO라는 어두운 개체 감지 프레임워크를 구축합니다. 먼저 PENet은 Laplacian 피라미드를 사용하여 이미지를 서로 다른 해상도의 네 가지 구성 요소로 분해합니다. 구체적으로, 우리는 이미지의 디테일을 향상시키기 위해 컨텍스트 브랜치와 에지 브랜치로 구성된 디테일 처리 모듈(DPM)을 제안합니다. 또한, 저주파 의미를 포착하고 고주파 잡음을 방지하기 위해 저주파 향상 필터(LEF)를 제안합니다. PE-YOLO는 엔드-투-엔드 관절 훈련 방법을 채택하고 훈련 과정을 단순화하기 위해 정상적인 감지 손실만 사용합니다. 우리는 우리 방법의 효율성을 입증하기 위해 저조도 물체 감지 데이터 세트 ExDark에 대한 실험을 수행합니다.
여기에 이미지 설명을 삽입하세요.

2 페욜로

여기에 이미지 설명을 삽입하세요.

2-1 페넷

이미지의 라플라시안 피라미드는 다음과 같이 정의됩니다.
여기에 이미지 설명을 삽입하세요.
여기서 G ( x ) G(x)G ( x ) 는 다음과 같이 정의됩니다.
여기에 이미지 설명을 삽입하세요.
PENet은 라플라시안 피라미드를 통해 이미지를 다양한 해상도의 구성 요소로 분해합니다.
여기에 이미지 설명을 삽입하세요.
라플라시안 피라미드는 아래에서 위로 글로벌 정보에 더 많은 관심을 기울이는 반면, 반대로 로컬 세부사항에 더 많은 관심을 기울이는 것을 이미지에서 볼 수 있습니다. 이 정보는 이미지 다운샘플링 과정에서 손실되며 PENet이 향상시켜야 하는 개체이기도 합니다.

2-2 디테일 강화

Laplacian Pyramid의 구성요소를 강화하기 위해 DPM(Detail Processing Module)이 사용되며, DPM은 Context Branch Edge Branch 로 구분됩니다 . 컨텍스트 분기는 원격 종속성을 캡처하여 컨텍스트 정보를 얻고 구성 요소에 대한 전역적 향상을 수행합니다. Edge 분기는 Sobel 연산자를 두 가지 다른 방향으로 사용하여 이미지 그라데이션을 계산하여 가장자리를 얻고 구성 요소의 질감을 향상시킵니다.

컨텍스트 분기 : 잔차 블록을 사용하여 장거리 종속성을 얻기 전후의 특징을 처리하고 잔차 학습 건너뛰기 연결을 통해 풍부한 저주파 정보를 전송합니다. 첫 번째 잔차 블록은 특징의 채널을 3에서 32로 변경하고, 두 번째 잔차 블록은 특징의 채널을 32에서 3으로 변경합니다. 장면의 전체 정보를 캡처하는 것은 저조도 향상과 같은 낮은 수준의 시력 작업에 유용합니다.

Edge Branch : Sobel 연산자는 Gaussian 필터와 미분 유도를 결합한 이산 연산자입니다. 그라데이션 근사를 계산하여 이미지의 가장자리를 찾습니다. 수평 및 수직 방향으로 Sobel 연산자를 사용하고 컨볼루션 필터를 통해 에지 정보를 다시 추출하고 잔차를 사용하여 정보 전달을 향상시킵니다. 이는 이미지의 질감 특성을 더욱 향상시킬 수 있습니다.

DPM의 자세한 정보는 다음과 같습니다.
여기에 이미지 설명을 삽입하세요.

2-3 저주파 강화 필터

각 스케일의 성분 중 저주파 성분은 영상의 의미 정보의 대부분을 담고 있으며 검출기 예측을 위한 핵심 정보입니다. 재구성된 영상의 의미를 풍부하게 하기 위해 본 논문에서는 구성 요소의 저주파 정보를 캡처하는 저주파 강화 필터(LEF)를 제안합니다. 구성 요소 f ∈ Rh×w×3을 가정하고 먼저 컨볼루션 레이어를 통해 f ∈ Rh×w×32로 변환합니다. 그런 다음 동적 저역 통과 필터를 사용하여 저주파 정보를 캡처하고 평균 풀링을 사용하여 특성 필터링을 수행하여 컷오프 주파수 미만의 정보만 통과시킵니다. 다양한 의미론의 저주파 임계값은 다릅니다. Inception의 다중 스케일 구조를 기반으로 1×1, 2×2, 3×3, 6×6 크기의 적응형 평균 풀링을 사용하고, 각 스케일의 끝 부분에서 업샘플링을 사용하여 원본을 복원합니다. 기능의 크기. . 다양한 커널 크기의 평균 풀링은 저역 통과 필터를 형성합니다.

LEF의 상세 정보는 다음과 같습니다.
여기에 이미지 설명을 삽입하세요.

3가지 실험

여기에 이미지 설명을 삽입하세요.
여기에 이미지 설명을 삽입하세요.
여기에 이미지 설명을 삽입하세요.

추천

출처blog.csdn.net/shanglianlm/article/details/132808775