자기회귀는 확산을 초월합니다! 북경대학교, 바이트 VAR 패러다임으로 시각적 생성 스케일링 법칙 잠금 해제

차세대 비주얼 생성 패러다임 "VAR: Visual Auto Regressive"가 여기에 있습니다! GPT 스타일 자동회귀 모델은 처음으로 이미지 생성에서 확산 모델을 능가하며 대규모 언어 모델과 유사한 스케일링 법칙 스케일링 법칙 및 제로샷 작업 일반화 일반화 능력이 관찰됩니다 .

论文标题:시각적 자기회귀 모델링: 차세대 예측을 통한 확장 가능한 이미지 생성

VAR이라고 불리는 이 새로운 작업은 Peking UniversityByteDance 의 연구원 이 제안한 것으로 GitHub 및 Paperwithcode 인기 목록에 포함되어 있으며 동료들로부터 많은 관심을 받았습니다.

현재 체험 웹사이트, 논문, 코드 및 모델이 공개되었습니다.

배경 소개

자연어 처리에서는 GPT 및 LLaMa 시리즈와 같은 대규모 언어 모델을 예로 드는 Autoregressive 자동 회귀 모델이 큰 성공을 거두었습니다. 특히 Scaling Law 스케일링 법칙Zero-shot Task Generalizability 는 매우 인상적인 Zero-shot 작업 일반화를 제공합니다. , 처음에는 "일반 인공 지능 AGI"로 이어질 가능성을 보여줍니다.

그러나 이미지 생성 분야에서 자기회귀 모델은 일반적으로 확산 모델보다 뒤떨어집니다. DALL-E3, Stable Diffusion3, SORA 및 최근 인기를 끌고 있는 기타 모델은 모두 Diffusion 계열에 속합니다. 또한, 시각적 생성 분야에 "스케일링 법칙"이 있는지 , 즉 테스트 세트의 교차 엔트로피 손실이 모델이나 훈련 오버헤드로 예측 가능한 거듭제곱 법칙 하향 추세를 나타낼 수 있는지 여부 는 아직 알 수 없습니다 . 탐구할.

GPT 형식 자동 회귀 모델의 강력한 기능과 확장 법칙은 이미지 생성 분야에서 "고정"된 것처럼 보입니다.

자기회귀 모델은 생성 효과 목록의 많은 확산 모델보다 뒤떨어집니다.

연구팀은 자기회귀 모델과 스케일링 법칙의 능력을 "잠금 해제"하는 데 초점을 맞춰 이미지 양식의 고유한 특성에서 출발하여 인간 이미지 처리의 논리적 순서를 모방하고 새로운 "시각적 자기회귀" 생성 패러다임인 VAR, Visual AutoRegressive를 제안했습니다. 모델링, 처음으로 GPT 스타일 자동 회귀 시각적 생성은 효과, 속도 및 크기 조정 기능 측면에서 확산을 능가하고 시각적 생성 분야에서 크기 조정 법칙을 도입했습니다.

VAR 방법의 핵심: 인간의 시각을 모방하고 이미지 자기회귀 시퀀스를 재정의

인간은 이미지나 그림을 인식할 때 먼저 개요를 파악한 다음 세부 사항을 탐구하는 경향이 있습니다. 거친 것에서 미세한 것으로, 전체를 파악하는 것에서 부분을 세밀하게 조정하는 것까지 이런 생각은 매우 자연스러운 일이다.

그림에 대한 인간의 인식(왼쪽)과 그림 창작(오른쪽) 의 거친 것부터 미세한 것까지의 논리적 순서

하지만 기존의 이미지 자동회귀(AR)는 인간의 직관에 맞지 않는(그러나 컴퓨터 처리에는 적합) 순서, 즉 하향식, 한 줄씩 래스터 순서를 사용하여 이미지 토큰을 하나씩 예측합니다. :

VAR은 "사람 중심"으로, 인간 인식 또는 인간이 만든 이미지의 논리적 순서를 모방하고 전체에서 세부 사항까지 다중 규모 시퀀스를 사용하여 점차적으로 토큰 맵을 생성합니다.

보다 자연스럽고 인간의 직관에 부합하는 것 외에도 VAR이 가져오는 또 다른 중요한 이점은 생성 속도를 크게 향상시킨다는 것입니다. 각 자동 회귀 단계(각 척도 내)에서 모든 이미지 토큰이 동시에 병렬로 생성됩니다. scales 자기회귀적입니다. 따라서 모델 매개변수와 이미지 크기가 동일할 때 VAR은 기존 AR보다 수십 배 더 빠릅니다. 또한, 저자는 실험에서 VAR이 AR보다 더 강력한 성능과 확장 능력을 보인다는 점도 관찰했습니다.

VAR 방법 세부정보: 2단계 훈련

VAR은 첫 번째 단계에서 다중 규모 양자화 자동 인코더 (Multi-scale VQVAE)를 학습하고, 두 번째 단계에서 GPT-2 구조(AdaLN과 결합)와 일치하는 자동 회귀 변환기를 학습합니다.

왼쪽 그림과 같이 VQVAE의 트레이닝 프리퀄 세부 내용은 다음과 같습니다.

  • 이산 코딩 : 인코더는 그림을 작은 해상도에서 큰 해상도까지 이산 토큰 맵 R=(r1, r2, ..., rk)로 변환합니다.
  • 연속화(Continuousization) : r1 ~ rk를 먼저 임베딩 레이어를 통해 연속적인 특징 맵으로 변환한 후 rk에 해당하는 최대 해상도로 균일하게 보간하고 합산합니다 .
  • 연속 디코딩 : 합산된 특징 맵은 디코더를 통과하여 재구성된 그림을 얻고 재구성 + 인식 + 대결 의 세 가지 손실을 혼합하여 학습됩니다 .

오른쪽 그림과 같이 VQVAE 훈련이 완료된 후 자동 회귀 Transformer 훈련의 두 번째 단계가 수행됩니다.

  • 자동 회귀의 첫 번째 단계는 시작 **** 토큰 [S] 에서 초기 1x1 토큰 맵을 예측하는 것입니다.
  • 각 후속 단계에서 VAR은 모든 과거 토큰 맵을 기반으로 다음으로 큰 규모의 토큰 맵을 예측합니다 .
  • 훈련 단계에서 VAR은 표준 교차 엔트로피 손실을 사용하여 이러한 토큰 맵의 확률 예측을 감독합니다.
  • 테스트 단계에서 샘플링된 토큰 맵은 VQVAE 디코더의 도움으로 직렬화, 보간, 합산 및 디코딩되어 최종 생성된 이미지를 얻습니다.

저자는 VAR의 자동 회귀 프레임워크가 완전히 새로운 것이며 특정 기술은 RQ-VAE의 잔류 VAE, StyleGAN 및 DiT의 AdaLN, PGGAN의 점진적 훈련과 같은 일련의 고전 기술의 강점을 흡수했다고 말했습니다. VAR은 실제로 거인의 어깨 위에 서서 자기회귀 알고리즘 자체의 혁신에 중점을 두고 있습니다.

실험 효과 비교

Conditional ImageNet 256x256 및 512x512에 대한 VAR 실험:

  • VAR은 AR의 효과를 크게 향상시켜 AR이 확산에 뒤처지는 것을 방지했습니다 .
  • VAR은 10개의 자동회귀 단계 만 필요하며 생성 속도는 AR 및 Diffusion을 훨씬 능가하며 심지어 GAN의 효율성에도 접근합니다.
  • VAR을 2B/3B확장 함으로써 VAR은 SOTA 수준에 도달하여 새롭고 잠재적인 생성 모델 제품군을 보여줍니다.

흥미로운 점은 Stable Diffusion 3의 초석 모델인 SORA 및 DiT(확산 변환기)와 비교하여 VAR이 다음을 보여준다는 것입니다.

  • 더 나은 결과 : 확장VAR은 마침내 FID=1.80에 도달하여 이론적인 FID 하한인 1.78(ImageNet 검증 세트)에 접근했으며 이는 DiT의 최적인 2.10보다 훨씬 뛰어났습니다.
  • 더 빠른 속도 : VAR은 0.3초 이내에 256개 이미지를 생성할 수 있습니다 . 이는 DiT보다 45배 빠르고 DiT보다 81배 빠릅니다 .
  • 향상된 확장 기능: 왼쪽 그림에 표시된 것처럼 DiT 대형 모델은 3B 및 7B로 성장한 후 포화 상태를 보였으며 VAR이 20억 매개변수로 확장되었지만 성능은 계속해서 향상되었습니다. 드디어 FID 하한선에 도달했습니다.
  • 보다 효율적인 데이터 활용 : VAR에는 DiT 1400 에포크 교육 보다 더 많은 350 에포크 교육만 필요합니다 .

DiT보다 더 효율적이고 빠르며 확장성이 뛰어나다는 이러한 증거는 차세대 비주얼 세대 인프라 경로에 더 많은 가능성을 제공합니다.

스케일링 법칙 실험

확장 법칙은 대규모 언어 모델의 "최고의 보석"으로 설명될 수 있습니다. 관련 연구에 따르면 자동 회귀 대규모 언어 모델을 확장하는 과정에서 테스트 세트의 교차 엔트로피 손실 L은 모델 매개변수 수 N, 훈련 토큰 수 T 및 계산 오버헤드에 따라 예측 가능하게 감소 할 것으로 확인되었습니다. Cmin . 거듭제곱 관계를 노출합니다.

스케일링 법칙은 작은 모델을 기반으로 대규모 모델의 성능을 예측하여 컴퓨팅 오버헤드와 리소스 할당을 절약할 뿐만 아니라 자동회귀 AR 모델의 강력한 학습 능력을 반영합니다. 테스트 세트 성능은 N, T, 및 증가합니다. Cmin.

실험을 통해 연구원들은 VAR이 LLM 과 거의 동일한 거듭제곱법칙(power law Scaling Law)을 나타냄을 관찰했습니다 . 연구원들은 12가지 크기의 모델을 훈련했으며, 스케일링 모델 매개변수의 수는 1,800만에서 20억까지, 총 계산량은 6에 달했습니다. , 최대 총 토큰 수는 3,050억 개에 달하며, L과 Cmin 사이의 테스트 세트 손실 L 또는 테스트 세트 오류율과 N이 원활한 멱함수 관계를 보여 적합도가 좋은 것으로 관찰됩니다. :

모델 매개변수 및 계산량을 확대하는 과정에서 모델의 생성 능력이 점차 향상되는 것을 볼 수 있습니다(예: 아래 오실로스코프 줄무늬).

제로샷 실험

Teacher-forcing 메커니즘을 사용하여 특정 토큰을 변경되지 않은 상태로 유지할 수 있는 자동 회귀 모델의 뛰어난 특성 덕분에 VAR은 특정 제로 샘플 작업 일반화 기능도 보여줍니다. 조건부 생성 작업에 대해 훈련된 VAR Transformer는 이미지 완성(inpainting), 이미지 외삽(outpainting), 이미지 편집(클래스 조건 편집)과 같은 미세 조정 없이 일부 생성 작업을 일반화할 수 있습니다. ), 다음과 같은 특정 결과를 얻었습니다.

결론적으로

VAR은 이미지의 자동 회귀 시퀀스, 즉 거친 이미지에서 미세한 이미지까지, 전체 윤곽에서 로컬 미세 조정까지의 시퀀스를 정의하는 방법에 대한 새로운 관점을 제공합니다 . 이러한 자기회귀 알고리즘은 직관과 일치하면서도 좋은 결과를 가져옵니다. VAR은 자기회귀 모델의 속도와 생성 품질을 크게 향상시켜 자기회귀 모델이 처음으로 여러 측면에서 확산 모델을 능가하게 만듭니다 . 동시에 VAR은 LLM과 유사한 스케일링 법칙 및 제로샷 일반화 가능성을 나타냅니다. 저자는 VAR의 아이디어, 실험적 결론 및 오픈 소스가 이미지 생성 분야에서 자동 회귀 패러다임 사용에 대한 커뮤니티의 탐구에 기여하고 향후 자동 회귀를 기반으로 하는 통합 다중 모드 알고리즘의 개발을 촉진할 수 있기를 바랍니다.

바이트댄스 상용화-GenAI 팀 소개

ByteDance 상용화-GenAI 팀은 고급 생성 인공 지능 기술을 개발하고 텍스트, 이미지, 비디오를 포함한 업계 최고의 기술 솔루션을 만드는 데 중점을 두고 있습니다. Generative AI를 사용하여 자동화된 크리에이티브 워크플로우를 실현함으로써 기관과 창작자에게 크리에이티브 효율성을 향상시키고 추진력을 제공합니다. 값.

팀의 비주얼 생성 및 LLM 방향에서 더 많은 직책이 열려 있습니다. ByteDance 채용 정보에 주목해 주세요.

동료 치킨 "오픈 소스" deepin-IDE 및 마침내 부트스트랩을 달성했습니다! 좋은 친구, Tencent는 Switch를 "생각하는 학습 기계"로 전환했습니다. Tencent Cloud의 4월 8일 실패 검토 및 상황 설명 RustDesk 원격 데스크톱 시작 재구성 웹 클라이언트 WeChat의 SQLite 기반 오픈 소스 터미널 데이터베이스 WCDB의 주요 업그레이드 TIOBE 4월 목록: PHP 사상 최저치로 떨어졌고 FFmpeg의 아버지인 Fabrice Bellard는 오디오 압축 도구인 TSAC를 출시했으며 Google은 대규모 코드 모델인 CodeGemma를 출시했습니다 . 오픈소스라서 너무 좋아요 - 오픈소스 사진 및 포스터 편집기 도구
{{o.이름}}
{{이름}}

추천

출처my.oschina.net/u/6210722/blog/11052621