(2017, AdaIN) 적응형 인스턴스 정규화를 통한 실시간 임의 스타일 전송

적응형 인스턴스 정규화를 통한 실시간 임의 스타일 전송

공식 계정: EDPJ

목차

0. 요약

1. 소개

2. 관련업무

3. 배경

3.1 배치 정규화(Batch Normalization, BN)

3.2 인스턴스 정규화(IN) 

3.3 조건 인스턴스 정규화(CIN)

4. 인스턴스 정규화 설명

5. 적응형 인스턴스 정규화(AdaIN)

6. 실험 설정

6.1 구조

6.2 교육

7. 결과

7.1 다른 방법과의 비교

7.2 추가 실험

7.3 실시간 제어

8. 논의 및 결론 

부록

4. 다른 레이어에서 AdaIN을 사용하는 효과

참고

S. 요약

S.1 주요 아이디어

S.2 ADAIN

S.3 다른 계층에서 AdaIN을 사용하는 구조 및 효과 


0. 요약

Gatys et al.[16]은 최근 이미지의 내용을 다른 이미지의 스타일로 렌더링하는 신경 알고리즘을 도입하여 소위 스타일 전송을 가능하게 했습니다. 그러나 프레임워크에는 느린 반복 최적화 프로세스가 필요하므로 실제 적용이 제한됩니다. 신경 스타일 전송을 가속화하기 위해 피드포워드 신경망을 사용한 빠른 근사가 제안되었습니다. 불행하게도, 이러한 증가된 속도는 대가를 치릅니다. 네트워크는 일반적으로 고정된 스타일 세트에 묶여 있으며 임의의 새로운 스타일에 적응할 수 없습니다. 본 논문에서는 실시간 임의 스타일 전송을 가능하게 하는 간단하면서도 효과적인 방법을 최초로 제안한다. 우리 접근 방식의 중심에는 콘텐츠 기능의 평균과 분산을 스타일 기능의 평균과 분산에 맞추는 새로운 AdaIN(Adaptive Instance Normalization) 레이어가 있습니다. 우리의 방법은 가장 빠른 기존 방법에 필적하는 속도를 달성하고 미리 정의된 스타일 세트에 의해 제한되지 않습니다. 또한 우리의 접근 방식은 유연한 사용자 제어(예: 콘텐츠/스타일 절충, 스타일 보간, 색상 및 공간 제어)를 모두 단일 피드 포워드 신경망을 사용하여 허용합니다.

1. 소개

이 작업에서는 이러한 근본적인 유연성/속도 딜레마를 해결하는 첫 번째 신경 스타일 전송 알고리즘을 제안합니다. 우리의 방법은 최적화 기반 프레임워크[16]의 유연성과 가장 빠른 피드포워드 방법과 유사한 속도를 결합하여 임의의 새로운 스타일을 실시간으로 전송할 수 있습니다. 우리의 접근 방식은 피드 포워드 스타일 전송에 놀라울 정도로 효과적인 인스턴스 정규화(IN) 계층에서 영감을 받았습니다. 인스턴스 정규화의 성공을 설명하기 위해 인스턴스 정규화가 이미지의 스타일 정보를 전달하는 것으로 밝혀진 특징 통계를 정규화하여 스타일 정규화를 수행한다는 새로운 설명을 제안합니다. 설명에 영감을 받아 IN의 간단한 확장인 AdaIN(Adaptive Instance Normalization)을 소개합니다. 콘텐츠와 스타일이 주어지면 AdaIN은 단순히 콘텐츠 이미지의 평균과 분산을 조정하여 스타일 이미지의 평균과 분산을 일치시킵니다. 실험을 통해 우리는 AdaIN이 기능 통계를 전송하여 전자의 내용과 후자의 스타일을 효과적으로 결합한다는 것을 발견했습니다. 그런 다음 디코더 네트워크는 AdaIN 출력을 다시 이미지 공간으로 반전시켜 최종 이미지를 생성하도록 학습됩니다. 우리의 방법은 입력을 임의의 새로운 스타일로 전송하는 유연성을 희생하지 않고 [16]보다 거의 세 배 더 빠릅니다. 또한 우리의 방법은 교육 프로세스를 수정하지 않고 런타임에 풍부한 사용자 제어를 제공합니다.

2. 관련업무

스타일 트랜스퍼 . 스타일 전송 문제는 비사실적 렌더링에서 발생하며 텍스처 합성 및 전송과 밀접한 관련이 있습니다. 일부 초기 방법에는 선형 필터 응답과 비모수 샘플링의 히스토그램 일치가 포함되었습니다. 이러한 방법은 종종 낮은 수준의 통계에 의존하며 의미 구조를 캡처하지 못하는 경우가 많습니다. 처음으로 Gatys et al.[16]은 DNN의 컨볼루션 레이어에서 기능 통계를 일치시켜 인상적인 스타일 전송 결과를 보여주었습니다. 최근 [16]에 비해 몇 가지 개선 사항이 제안되었습니다.

  • Li와 Wand는 심층 기능 공간에서 로컬 패턴을 적용하기 위해 Markov Random Field(MRF) 기반 프레임워크를 도입했습니다.
  • Gatys 등은 색상 보존, 공간 위치 및 스타일 전송의 규모를 제어하는 ​​방법을 제안했습니다.
  • Ruder 등은 시간적 제약을 부과하여 비디오 스타일 전송의 품질을 개선했습니다.

Gatys [16] 등의 프레임워크는 손실 네트워크에 의해 계산된 콘텐츠 손실 및 스타일 손실을 최소화하기 위해 이미지를 반복적으로 업데이트하는 느린 최적화 프로세스를 기반으로 합니다. 최신 GPU를 사용하더라도 수렴하는 데 몇 분이 걸릴 수 있습니다. 그 결과 모바일 앱의 온디바이스 처리 속도가 너무 느려 실용적이지 못합니다.

  • 일반적인 솔루션은 최적화 프로세스를 동일한 목표를 최소화하도록 훈련된 피드포워드 신경망으로 대체하는 것입니다. 이러한 피드 포워드 마이그레이션 방법은 최적화 기반 대안보다 약 3배 더 빠르므로 실시간 애플리케이션의 문을 엽니다.
  • 피드 포워드 전송의 세분성은 Wang 등의 다중 해상도 아키텍처에 의해 향상됩니다.
  • Ulyanov 등은 생성된 샘플의 품질과 다양성을 개선하는 방법을 제안합니다.
  • 그러나 앞서 언급한 피드포워드 방법은 각 네트워크에서 고정된 스타일에 묶여 있습니다.
  • 이 문제를 해결하기 위해 Dumoulin 등은 32가지 스타일과 보간법을 인코딩할 수 있는 네트워크를 도입했습니다.
  • 우리 작업과 동시에 Li 등은 최대 300개의 텍스처를 합성하고 16가지 스타일을 전송할 수 있는 피드포워드 아키텍처를 제안했습니다.
  • 여전히 위의 두 가지 방법은 훈련 중에 관찰되지 않은 임의의 스타일에 여전히 적응할 수 없습니다.

최근 Chen과 Schmidt는 스타일 교환 레이어를 통해 임의의 스타일을 전송하는 피드포워드 방식을 도입했습니다. 콘텐츠 및 스타일 이미지의 기능 활성화가 주어지면 스타일 교환 레이어는 콘텐츠 기능을 패치별로 가장 일치하는 스타일 기능으로 대체합니다. 그러나 스타일 교환 레이어는 새로운 계산 병목 현상을 만듭니다. 계산의 95% 이상이 512 × 512 입력 이미지에 대한 스타일 교환에 사용됩니다. 우리의 방법은 또한 임의의 스타일 전송을 허용하면서 Chen과 Schmidt보다 1-2배 더 빠릅니다.

스타일 전송의 또 다른 핵심 문제는 사용할 스타일 손실 기능입니다. Gatys et al.[16]의 원래 프레임워크는 Gram 매트릭스에 의해 캡처된 기능 활성화 간의 2차 통계를 일치시켜 스타일을 일치시킵니다. MRF 손실, 적대적 손실, 히스토그램 손실, CORAL 손실, MMD 손실 및 채널 평균과 분산 사이의 거리와 같은 다른 효과적인 손실 함수가 제안되었습니다. 위의 모든 손실 함수는 스타일이 지정된 이미지와 합성된 이미지 간의 일부 기능 통계를 일치시키는 것을 목표로 합니다.

심층 생성 이미지 모델링 . Variational Autoencoder, autoregressive 모델, GAN(Generative Adversarial Networks) 등 이미지 생성을 위한 몇 가지 대체 프레임워크가 있습니다. 특히 GAN은 가장 인상적인 시각적 품질을 달성했습니다. 조건부 생성, 다단계 처리 및 더 나은 훈련 목표와 같은 GAN 프레임워크에 대한 다양한 개선 사항이 제안되었습니다. GAN은 스타일 전송 및 도메인 간 이미지 생성에도 적용되었습니다.

3. 배경

3.1 배치 정규화(Batch Normalization, BN)

Ioffe와 Szegedy의 중요한 작업은 기능 통계를 정규화하여 피드포워드 네트워크의 교육을 크게 단순화하는 배치 정규화(BN) 계층을 도입했습니다. BN 레이어는 원래 판별 네트워크의 훈련 속도를 높이기 위해 설계되었지만 생성 이미지 모델링에도 효과적인 것으로 밝혀졌습니다. 입력 배치 x ∈ R^(N×C×H×W)가 주어지면 BN은 각 개별 기능 채널의 평균 및 표준 편차를 정규화합니다.

여기서 γ, β ∈ R^C는 데이터에서 학습된 아핀 매개변수이고, μ(x), σ(x) ∈ R^C는 평균 및 표준 편차이며 배치 크기 및 공간 차원은 각 기능에 대해 독립적으로 계산됩니다. 채널: 

BN은 교육 시간에 미니 배치 통계를 사용하고 추론 시간에 모집단 통계로 대체하므로 교육과 추론의 차이가 발생합니다.

  • 배치 재정규화는 훈련 동안 모집단의 통계를 점진적으로 사용하여 이 문제를 해결하기 위해 최근에 제안되었습니다.
  • BN의 또 다른 흥미로운 적용으로 Li 등은 BN이 대상 도메인에서 인구 통계를 재계산하여 도메인 이동을 완화할 수 있음을 발견했습니다.
  • 최근에 BN의 효율성을 순환 아키텍처로 확장하기 위해 몇 가지 대체 정규화 체계가 제안되었습니다.

3.2 인스턴스 정규화(IN) 

원래의 피드 포워드 스타일화 방법에서 스타일 전송 네트워크는 각 컨볼루션 레이어 다음에 BN 레이어로 구성됩니다. 놀랍게도 Ulyanov 등은 단순히 BN 레이어를 IN 레이어로 대체하여 상당한 개선을 발견했습니다.

BN 레이어와 달리 여기서 μ(x) 및 σ(x)는 각 채널 및 각 샘플에 대해 공간 차원에서 독립적으로 계산됩니다.

또 다른 차이점은 IN 레이어는 테스트 시간에 변하지 않는 반면 BN 레이어는 일반적으로 미니 배치 통계를 모집단 통계로 대체한다는 것입니다. 

3.3 조건 인스턴스 정규화(CIN)

아핀 매개변수 γ 및 β 세트를 학습하는 대신 Dumoulin et al.은 각 스타일 s에 대해 서로 다른 매개변수 γ^s 및 β^s 세트를 학습하는 조건부 인스턴스 정규화(CIN) 계층을 제안합니다.

학습하는 동안 스타일 이미지와 해당 인덱스 s는 고정 스타일 세트 s ∈ {1, 2, ..., S}(실험에서 S = 32)에서 무작위로 선택됩니다. 그런 다음 해당 γ^s 및 β^s가 CIN 레이어에 사용되는 스타일 전송 네트워크에서 콘텐츠를 처리합니다. 놀랍게도 네트워크는 동일한 컨볼루션 매개변수를 사용하지만 IN 계층에서 다른 아핀 매개변수를 사용하여 완전히 다른 스타일의 이미지를 생성할 수 있습니다. 

정규화 계층이 없는 네트워크와 비교할 때 CIN 계층이 있는 네트워크에는 2FS 추가 매개변수가 필요합니다. 여기서 F는 네트워크의 총 기능 맵 수입니다. 추가 매개변수의 수는 스타일의 수에 따라 선형적으로 확장되기 때문에 많은 수의 스타일(예: 수만 개)을 모델링하기 위해 방법을 확장하는 것은 어렵습니다. 또한 그들의 방법은 네트워크를 재교육하지 않고는 임의의 새로운 스타일에 적응할 수 없습니다. 

4. 인스턴스 정규화 설명

(조건부) 인스턴스 정규화의 큰 성공에도 불구하고 스타일 전송에 특히 효과적인 이유는 파악하기 어렵습니다. Ulyanov 등은 IN의 성공을 이미지 콘텐츠 대비에 대한 불변성으로 돌립니다. 그러나 IN은 기능 공간에서 발생하므로 픽셀 공간에서 단순한 대비 정규화보다 더 큰 영향을 미칩니다. 아마도 더 놀랍게도 IN의 affine 매개변수는 출력 이미지의 스타일을 완전히 변경할 수 있습니다.

DNN의 컨볼루션 기능 통계가 이미지 스타일을 캡처할 수 있다는 것은 잘 알려져 있습니다. Gatys et al.[16]은 최적화 목적으로 2차 통계를 사용했지만 Li et al.은 최근 채널 평균 및 분산을 포함한 많은 다른 통계를 일치시키는 것이 스타일 전송에도 효과적임을 보여주었습니다. 이러한 관찰에서 영감을 받아 기능 통계(즉, 평균 및 분산)를 정규화하여 스타일 정규화의 한 형태를 수행하는 인스턴스 정규화를 고려합니다. [16]에서는 DNN이 이미지 디스크립터로 사용되지만 생성기 네트워크의 기능 통계도 생성된 이미지의 스타일을 제어할 수 있다고 주장합니다.

수정된 텍스처 네트워크에 대한 코드를 실행하여 IN 또는 BN 레이어를 사용하여 단일 스타일 전송을 수행합니다. 예상대로 IN이 있는 모델은 BN 모델보다 빠르게 수렴합니다(그림 1(a)). 개선된 텍스처 네트워크에서 해석을 테스트하기 위해 루마 채널에서 히스토그램 평활화를 수행하여 모든 훈련 이미지를 동일한 대비로 정규화합니다. 그림 1(b)에서 볼 수 있듯이 IN은 여전히 ​​작동하며 개선된 텍스처 네트워크에서의 해석이 불완전함을 나타냅니다. 가설을 테스트하기 위해 사전 훈련된 스타일 전송 네트워크를 사용하여 모든 훈련 이미지를 동일한 스타일(목표 스타일과 다름)로 정규화합니다. 그림 1(c)에 따르면 이미지가 스타일로 정규화되면 IN에 의한 개선은 매우 작아집니다. 나머지 격차는 불완전한 스타일 정규화로 설명할 수 있습니다. 또한 스타일 정규화 이미지에서 BN으로 훈련된 모델은 원본 이미지에서 IN으로 훈련된 모델만큼 빠르게 수렴할 수 있습니다. 우리의 결과는 IN이 스타일 정규화를 수행한다는 것을 보여줍니다.

단일 샘플이 아닌 많은 샘플은 단일 스타일을 중심으로 샘플 배치를 정규화하는 것으로 직관적으로 이해할 수 있습니다. 그러나 각 샘플은 여전히 ​​다른 스타일을 가질 수 있습니다. 이는 원래 피드포워드 스타일 전송 알고리즘의 경우와 같이 모든 이미지를 동일한 스타일로 전송하려는 경우 바람직하지 않습니다. 컨볼루션 레이어는 배치 내 스타일 차이를 보상하는 방법을 학습할 수 있지만 학습에 추가적인 문제가 발생합니다. 반면에 IN은 각 개별 샘플의 스타일을 대상 스타일로 정규화할 수 있습니다. 네트워크의 나머지 부분은 원시 스타일 정보를 삭제하면서 콘텐츠 조작에 집중할 수 있으므로 교육이 편리합니다. CIN이 성공한 이유도 분명해졌습니다. 서로 다른 아핀 매개변수는 기능 통계를 서로 다른 값으로 정규화할 수 있으므로 출력 이미지를 서로 다른 스타일로 정규화할 수 있습니다. 

5. 적응형 인스턴스 정규화(AdaIN)

IN이 Affine 매개변수로 지정된 단일 스타일로 입력을 정규화하는 경우 적응형 아핀 변환을 사용하여 주어진 스타일에 맞게 조정할 수 있습니까? 여기서는 적응형 인스턴스 정규화(AdaIN)라고 하는 IN에 대한 간단한 확장을 제안합니다. AdaIN은 콘텐츠 x와 스타일 y를 가져와 x와 y의 채널 평균과 분산을 간단히 정렬합니다. BN, IN 또는 CIN과 달리 AdaIN에는 학습 가능한 아핀 매개변수가 없습니다. 대신 스타일 입력을 기반으로 아핀 매개변수를 적응적으로 계산합니다.

여기서 정규화된 콘텐츠를 σ(y)만큼 스케일링하고 μ(y)만큼 오프셋합니다. IN과 유사하게 이러한 통계는 공간 위치에서 계산됩니다. 

직관적으로 스타일별 획을 감지하는 기능 채널을 고려해 보겠습니다. 이러한 스트로크가 있는 스타일이 지정된 이미지는 이 기능에 대해 높은 평균 활성화를 생성합니다. AdaIN의 출력은 콘텐츠 이미지의 공간 구조를 유지하면서 이 기능에 대해 동일한 높은 평균 활성화를 갖게 됩니다. 스트로크 기능은 피드 포워드 디코더를 사용하여 이미지 공간으로 반전될 수 있습니다. 이 기능 채널의 분산은 AdaIN 출력 및 최종 출력 이미지에도 전달되는 더 미묘한 스타일 정보를 인코딩할 수 있습니다.

즉, AdaIN은 기능 통계, 특히 채널 평균 및 분산을 전송하여 기능 공간에서 스타일 전송을 수행합니다. AdaIN 레이어는 [6]에서 제안한 스타일 교환 레이어와 유사한 역할을 합니다. 스타일 교환 작업은 매우 시간과 메모리 집약적이지만 AdaIN 계층은 추가 계산 비용이 거의 없는 IN 계층만큼 간단합니다.

6. 실험 설정

6.1 구조

우리의 스타일 전송 네트워크 T는 콘텐츠 이미지 c와 임의의 스타일 이미지 s를 입력으로 취하고 전자의 콘텐츠와 후자의 스타일을 재결합하는 출력 이미지를 합성합니다. 우리는 인코더 f가 사전 훈련된 VGG-19의 처음 몇 레이어(relu4_1까지)에 고정되는 간단한 인코더-디코더 아키텍처를 채택합니다. 기능 공간에서 콘텐츠 및 스타일 이미지를 인코딩한 후 두 기능 맵을 AdaIN 레이어에 공급하여 콘텐츠 및 스타일 기능 맵의 평균과 분산을 정렬하여 대상 기능 맵 t를 생성합니다.

무작위로 초기화된 디코더 g를 훈련시켜 t를 다시 이미지 공간에 매핑하여 스타일화된 이미지 T(c, s)를 생성합니다. 

디코더는 대부분 인코더의 미러 이미지이며 모든 풀링 레이어는 체커보드 효과를 줄이기 위해 최근 업샘플링으로 대체됩니다. 경계 아티팩트를 피하기 위해 f와 g 모두에서 반사 패딩을 사용합니다. 또 다른 중요한 아키텍처 선택은 디코더가 IN, BN 또는 정규화를 사용하지 않는지 여부입니다. 섹션 2에서 설명한 것처럼 IN은 각 샘플을 단일 스타일로 정규화하고 BN은 단일 스타일을 중심으로 샘플 배치를 정규화합니다. 디코더가 완전히 다른 스타일로 이미지를 생성하기를 원할 때 둘 다 바람직하지 않습니다. 따라서 디코더에서 정규화 계층을 사용하지 않습니다. 섹션 7.1에서 디코더의 IN/BN 레이어가 성능에 영향을 미친다는 것을 보여줍니다. 

6.2 교육

[6]의 설정에 따라 MS-COCO를 콘텐츠 이미지로 사용하고 주로 WikiArt에서 수집한 그림 데이터 세트를 스타일 이미지로 사용하여 네트워크를 훈련합니다. 각 데이터 세트에는 약 80,000개의 훈련 예제가 포함되어 있습니다. 우리는 adam 옵티마이저를 사용하며 1 배치는 8개의 콘텐츠 스타일 이미지 쌍으로 구성됩니다. 학습하는 동안 먼저 종횡비를 유지하면서 두 이미지의 최소 크기를 512로 조정한 다음 256 × 256 크기의 영역을 무작위로 자릅니다. 우리 네트워크는 완전히 컨볼루션이기 때문에 테스트 중에 모든 크기의 이미지에 적용할 수 있습니다.

사전 훈련된 VGG-19를 사용하여 디코더를 훈련하기 위한 손실 함수를 계산합니다.

이는 콘텐츠 손실 L_c 및 스타일 손실 L_s와 스타일 손실 가중치 λ의 가중 조합입니다. 콘텐츠 손실은 대상 기능과 출력 이미지 기능 간의 유클리드 거리입니다. 콘텐츠 이미지에 대한 일반적인 기능 응답 대신 AdaIN 출력 t를 콘텐츠 대상으로 사용합니다. 우리는 이것이 약간 더 빠른 수렴으로 이어지고 AdaIN 출력 t를 반전시키려는 우리의 목표를 충족한다는 것을 발견했습니다. 

AdaIN 레이어는 스타일 기능의 평균 및 표준 편차만 전송하므로 스타일 손실은 이러한 통계와만 일치합니다. 일반적으로 사용되는 그램 매트릭스 손실이 유사한 결과를 생성할 수 있음을 발견했지만 개념적으로 더 명확하기 때문에 IN 통계를 일치시킵니다. 이 스타일 손실은 Li et al. 

여기서 각 φ_i는 스타일 손실을 계산하는 데 사용되는 VGG-19의 레이어를 나타냅니다. 실험에서는 동일한 가중치를 가진 relu1_1, relu2_1, relu3_1, relu4_1 레이어를 사용합니다. 

7. 결과

이 하위 섹션에서는 방법을 세 가지 스타일 전송 방법과 비교합니다.

  • 유연하지만 느린 최적화 기반 방법, Gatys [16],
  • 단일 스타일로 제한된 빠른 피드포워드 방법, Ulyanov[52],
  • 유연한 패치 기반 중속 방법, Chen 및 M. Schmidt [6].

달리 명시되지 않는 한, 비교된 방법의 결과는 기본 구성으로 코드를 실행하여 얻은 것입니다. [6]의 경우 저자가 제공한 사전 훈련된 역 네트워크를 사용합니다. 모든 테스트 이미지의 크기는 512×512입니다.

7.1 다른 방법과의 비교

질적 결과 . 그림 4에서는 비교 방법에 의해 생성된 스타일 전송 결과의 예를 보여줍니다.

  • 모든 테스트 스타일 이미지는 모델 교육 중에 관찰되지 않지만 Ulyanov의 결과는 네트워크를 각 테스트 스타일에 맞춰서 얻습니다.
  • 그럼에도 불구하고 많은 이미지(예: 행 1, 2, 3)에서 양식화된 이미지의 품질은 Ulyanov 및 Gatys의 품질과 상당히 경쟁적입니다.
  • 일부 다른 경우(예: 행 5)에서 우리 방법은 Ulyanov 및 Gatys의 품질보다 약간 뒤떨어집니다. 속도, 유연성 및 품질 사이에는 세 가지 상충 관계가 있다고 믿기 때문에 이는 놀라운 일이 아닙니다.
  • Chen과 M. Schmidt와 비교할 때 우리의 방법은 대부분의 비교 이미지에서 스타일을 더 충실하게 전달하는 것 같습니다.
  • 마지막 예는 Chen과 M. Schmidt가 각 콘텐츠 패치를 최상의 일치 스타일 패치와 일치시키려는 시도의 주요 한계를 명확하게 보여줍니다. 그러나 대부분의 콘텐츠 패치가 대상 스타일을 나타내지 않는 몇 가지 스타일 패치와 일치하는 경우 스타일 전송이 실패합니다.
  • 따라서 일부 경우(예: 행 3) Chen 및 M. Schmidt의 방법이 매력적인 결과를 생성할 수도 있지만 전역 기능 통계 일치를 보다 일반적인 솔루션으로 간주합니다. 

정량적 평가 . 우리의 알고리즘은 더 빠른 속도와 유연성을 위해 일부 품질을 희생합니까? 그렇다면 얼마나 됩니까? 이 질문에 정량적으로 대답하기 위해 콘텐츠 및 스타일 손실 측면에서 우리의 방법을 최적화 기반 방법(Gatys) 및 빠른 단일 스타일 전송 방법(Ulyanov)과 비교합니다. 우리의 방법은 IN 통계에 기반한 스타일 손실을 사용하기 때문에 공정한 비교를 위해 (Gatys) 및 (Ulyanov)의 손실 함수도 수정합니다(그림 4의 결과는 여전히 기본 그램 매트릭스 손실을 사용하여 얻습니다). 여기에 표시된 콘텐츠 손실은 (Ulyanov, Gatys)에서와 동일합니다. 보고된 숫자는 WikiArt 데이터 세트 및 MS-COCO의 테스트 세트에서 임의로 선택한 10개의 스타일 이미지와 50개의 콘텐츠 이미지의 평균입니다.

그림 3에서 볼 수 있듯이 합성된 이미지의 평균 콘텐츠 및 스타일 손실은 약간 더 높지만 Ulyanov 등의 단일 스타일 전송 방법과 비슷합니다. 특히, 우리의 방법과 Ulyanov는 50에서 100회의 최적화 반복 사이에서 Gatys와 같은 스타일 손실을 달성합니다. 이것은 Gatys의 각 네트워크가 테스트 패턴에 대해서만 훈련되는 반면 우리 네트워크는 훈련 중에 테스트 패턴을 보지 않는다는 점을 고려하면 우리 방법의 강력한 일반화 능력을 보여줍니다. 또한 스타일 손실은 원본 콘텐츠 이미지보다 훨씬 작습니다. 

속도 분석 . 대부분의 계산은 콘텐츠 인코딩, 스타일 인코딩 및 디코딩에 사용되며 각각 약 1/3의 시간이 걸립니다. 비디오 처리와 같은 일부 애플리케이션 시나리오에서 스타일 이미지는 한 번만 인코딩하면 되며 AdaIN은 저장된 스타일 통계를 사용하여 모든 후속 이미지를 처리할 수 있습니다. 일부 다른 경우(예: 동일한 콘텐츠를 다른 스타일로 변환) 콘텐츠 인코딩에 사용된 계산을 공유할 수 있습니다.

표 1에서 우리 방법의 속도를 이전 방법과 비교합니다. 스타일 인코딩 시간을 제외하고 알고리즘은 각각 256 × 256 및 512 × 512 이미지에 대해 56 및 15 FPS로 실행되어 임의의 사용자 업로드 스타일을 실시간으로 처리할 수 있습니다. 임의의 스타일에 적용할 수 있는 알고리즘 중에서 우리의 방법은 (Gatys)보다 거의 3배 더 빠르고 (Chen and Schmidt)보다 1-2배 더 빠릅니다. (Chen 및 Schmidt)의 스타일 교환 레이어가 고해상도 스타일 이미지로 잘 확장되지 않기 때문에 (Chen 및 Schmidt) 이상의 속도 향상은 고해상도 이미지에 특히 중요합니다. 또한, 우리의 방법은 몇 가지 스타일(Ulyanov, Dumoulin)로 제한된 피드포워드 방법과 비슷한 속도를 달성합니다. 우리 방법의 약간 더 긴 처리 시간은 주로 방법론적 제한보다는 더 큰 VGG 기반 네트워크 때문입니다. 보다 효율적인 아키텍처를 통해 속도를 더욱 향상시킬 수 있습니다.

7.2 추가 실험

이 하위 섹션에서는 중요한 아키텍처 선택을 정당화하기 위해 실험을 수행합니다. 섹션 6에 설명된 방법을 Enc-AdaIN-Dec으로 표시합니다. 콘텐츠와 스타일 이미지의 정보를 결합하기 위한 자연스러운 기본 전략인 연결로 AdaIN을 대체하는 Enc-Concat-Dec이라는 모델을 실험했습니다. 또한 각각 Enc-AdaIN-BNDec 및 Enc-AdaIN-INDec로 표시된 디코더의 BN/IN 레이어로 모델을 실행합니다. 다른 훈련 설정은 변경되지 않습니다.

그림 5와 6에서 다양한 방법에 대한 예제와 교육 곡선을 보여줍니다. Enc-Concat-Dec 기준선에 의해 생성된 이미지(그림 5(d))에서 스타일 이미지의 객체 윤곽이 명확하게 관찰될 수 있으며, 이는 네트워크가 스타일 이미지의 내용에서 스타일 정보를 분리하지 못했음을 나타냅니다. 이는 Enc-Concat-Dec이 낮은 스타일 손실을 달성할 수 있지만 콘텐츠 손실을 줄일 수 없는 그림 6 Consistent와도 일치합니다. BN/IN 레이어가 있는 모델은 또한 품질이 좋지 않은 결과와 지속적으로 더 높은 손실을 얻습니다. IN 레이어의 결과는 특히 좋지 않습니다. 이는 IN 레이어가 출력을 단일 스타일로 정규화하는 경향이 있으므로 다른 스타일의 이미지를 생성하려는 경우 피해야 한다는 우리의 진술을 다시 확인합니다. 

7.3 실시간 제어

우리 방법의 유연성을 더욱 강조하기 위해 스타일 전송 네트워크를 통해 사용자가 스타일화 정도를 제어하고, 서로 다른 스타일 사이를 보간하고, 색상을 유지하면서 스타일을 전송하고, 서로 다른 공간 영역에서 서로 다른 스타일을 사용할 수 있음을 보여줍니다. 이러한 모든 컨트롤은 학습 프로세스를 수정하지 않고 런타임에만 동일한 웹 애플리케이션을 사용합니다.

콘텐츠 스타일 장단점 . 수식 11에서 스타일 가중치 λ를 조정하여 훈련 중에 스타일 전이 정도를 제어할 수 있습니다. 또한 우리의 방법은 디코더에 제공되는 기능 맵 사이를 보간하여 테스트 시간에 콘텐츠 스타일 절충을 허용합니다. 이는 AdaIN의 아핀 매개변수 사이를 보간하는 것과 같습니다.

α = 0일 때 네트워크는 콘텐츠 이미지를 충실하게 재구성하려고 시도하고 α = 1일 때 가장 양식화된 이미지를 합성합니다.

그림 7에서 볼 수 있듯이 콘텐츠 유사성과 스타일 유사성 사이의 원활한 전환은 α를 변경하여(0에서 1로) 관찰할 수 있습니다. 

스타일 보간 . K 스타일 이미지 세트 s1, s2, ..., sK 사이를 보간하기 위해 해당 가중치 w1, w2, ..., wK는

피처 맵 간에 유사하게 보간합니다(결과는 그림 8에 표시됨). 

공간 및 색상 제어 . Gatys 등은 최근 프레임워크에 쉽게 통합할 수 있는 색상 정보 및 스타일 전송의 공간적 위치에 대한 사용자 제어를 도입했습니다. 콘텐츠 이미지의 색상을 유지하기 위해 먼저 스타일 이미지의 색상 분포를 콘텐츠 이미지의 색상 분포와 일치시킨 다음 색상이 정렬된 스타일 이미지를 스타일 입력으로 사용하여 일반 스타일 전송을 수행합니다. . 

그림 10에서 우리는 우리의 방법이 콘텐츠 이미지의 다른 영역을 다른 스타일로 변환할 수 있음을 보여줍니다. 이는 완전히 피드포워드 방식과 유사하지만 서로 다른 스타일 입력의 통계를 사용하여 콘텐츠 기능 맵의 서로 다른 영역에서 AdaIN을 개별적으로 수행함으로써 달성됩니다. 우리의 디코더는 동종 스타일의 입력에 대해서만 훈련되지만 서로 다른 지역에서 다른 스타일의 입력으로 자연스럽게 일반화됩니다. 

8. 논의 및 결론 

본 논문에서는 처음으로 실시간 임의 스타일 전송을 가능하게 하는 간단한 AdaIN(Adaptive Instance Normalization) 계층을 제안한다. 매력적인 응용 프로그램 외에도 우리는 이 작업이 일반적인 깊이 이미지 표현에 대한 우리의 이해를 밝혀준다고 믿습니다.

기능 통계를 기반으로 하는 이전 신경 스타일 전송 방법과 우리 방법 간의 개념적 차이점을 고려하는 것은 흥미 롭습니다. Gatys 등은 기능 통계와 일치하도록 픽셀 값을 조작하는 최적화 프로세스를 사용합니다. 일부 논문에서는 최적화 프로세스가 피드포워드 신경망으로 대체되었습니다. 여전히 네트워크는 기능 통계와 간접적으로 일치하도록 픽셀 값을 수정하도록 훈련됩니다. 기능 공간의 통계를 한 번에 직접 정렬한 다음 기능을 다시 픽셀 공간으로 반전하여 매우 다른 접근 방식을 취합니다.

우리 방법의 단순성을 감안할 때 여전히 개선의 여지가 많다고 생각합니다. 향후 작업에서는 잔여 아키텍처 또는 인코더의 추가 건너뛰기 연결이 있는 아키텍처와 같은 고급 네트워크 아키텍처를 탐색할 계획입니다. 또한 증분 교육과 같은 보다 복잡한 교육 계획을 조사할 계획입니다. 또한 AdaIN 레이어는 가장 기본적인 기능 통계(평균 및 분산)만 정렬합니다. AdaIN을 상관 관계 정렬 또는 히스토그램 일치로 교체하면 고차 통계를 전송하여 품질을 더욱 향상시킬 수 있습니다. 또 다른 흥미로운 방향은 텍스처 합성에 AdaIN을 적용하는 것입니다. 

부록

4. 다른 레이어에서 AdaIN을 사용하는 효과

그림 2는 서로 다른 계층으로 AdaIN을 구현한 효과를 보여줍니다. relu4_1을 사용하면 이전 레이어보다 더 나은 지각 결과를 얻을 수 있습니다. 

 

참고

[16] LA Gatys, AS Ecker 및 M. 벳게. 컨벌루션 신경망을 사용한 이미지 스타일 전송. CVPR, 2016.

[52] D. Ulyanov, A. Vedaldi 및 V. Lempitsky. 향상된 텍스처 네트워크: 피드포워드 스타일화 및 텍스처 합성에서 품질과 다양성을 극대화합니다. CVPR, 2017.

[6] TQ Chen과 M. Schmidt. 임의 스타일의 빠른 패치 기반 스타일 전송. arXiv 프리프린트 arXiv:1612.04337, 2016.

Huang X, Belongie S. 적응형 인스턴스 정규화를 통한 실시간 임의 스타일 전송[C]//컴퓨터 비전에 관한 IEEE 국제 회의 절차. 2017: 1501-1510.

S. 요약

S.1 주요 아이디어

인스턴스 정규화의 성공을 설명하기 위해 저자는 인스턴스 정규화가 이미지의 스타일 정보를 전달하는 특징 통계를 정규화하여 스타일 정규화를 수행한다는 참신한 설명을 제안합니다. 이를 바탕으로 저자는 AdaIN(Adaptive Instance Normalization)을 제안한다. 콘텐츠와 스타일이 주어지면 AdaIN은 스타일 이미지의 평균과 분산을 일치시키기 위해 콘텐츠 이미지의 평균과 분산을 조정하기만 하면 생성된 이미지가 전자의 콘텐츠와 후자의 스타일을 갖게 됩니다.

S.2 ADAIN

AdaIN은 방정식 8에 표시됩니다.

여기서 x와 y는 각각 콘텐츠 이미지와 스타일 이미지를 나타냅니다. μ(x)와 σ(x)는 콘텐츠 이미지의 평균과 표준편차, μ(y)와 σ(y)는 스타일 이미지의 평균과 표준편차를 나타낸다. 이미지의 특징 통계는 이미지의 스타일 정보를 담고 있기 때문에 정규화를 통해 콘텐츠 이미지의 스타일 정보를 제거한 후 스타일 이미지의 특징 통계(스타일 정보)를 이용하여 아핀 변환을 수행한 후 스타일 전송을 할 수 있다. 실현되다.

S.3 다른 계층에서 AdaIN을 사용하는 구조 및 효과 

본 논문에서 사용한 네트워크 구조와 서로 다른 계층에서 AdaIN을 사용했을 때의 효과는 위의 두 그림과 같다.

AdaIN은 이미지 특징(특징 공간)의 통계를 기반으로 작동하기 때문에 네트워크의 후반 계층에서 더 정확한 특징을 추출할 수 있습니다. 이러한 정확한 기능의 통계 값을 기반으로 콘텐츠 이미지의 스타일은 인스턴스 정규화 중에 더 완전히 스타일이 제거되어 더 높은 품질의 스타일 전송을 달성할 수 있습니다.

추천

출처blog.csdn.net/qq_44681809/article/details/131045731