1024 해상도의 가장 빠른 모델, ByteDance Vincent 그래프 오픈 모델 SDXL-Lightning 출시

기사 출처 ByteDance 지능형 생성 팀 |

전례 없는 속도와 품질을 달성하고 이제 커뮤니티에서 사용할 수 있는 최신 Vincentian 그래프 모델인 SDXL-Lightning을 여러분과 공유하게 되어 기쁘게 생각합니다.

모델: https://huggingface.co/ByteDance/SDXL-Lightning

논문: https://arxiv.org/abs/2402.13929

번개처럼 빠른 이미지 생성

제너레이티브 AI(Generative AI)는 텍스트 프롬프트를 기반으로 놀라운 이미지는 물론 비디오까지 생성하는 능력으로 전 세계적으로 주목을 받고 있습니다. 그러나 현재의 최첨단 생성 모델은 노이즈를 이미지 샘플로 점진적으로 변환하는 반복 프로세스인 확산에 의존합니다. 이 과정에는 엄청난 컴퓨팅 자원이 필요하고 속도도 느리다. 고품질의 이미지 샘플을 생성하는 과정에서 단일 이미지의 처리 시간은 약 5초로, 이는 일반적으로 거대한 신경망에 대한 여러 번의 호출(20~40회)이 필요하다. . 이 속도는 빠른 실시간 생성이 필요한 애플리케이션 시나리오를 제한합니다. 품질을 향상시키면서 생성 속도를 높이는 방법은 현재 연구의 핵심 영역이자 우리 작업의 핵심 목표입니다.

SDXL-Lightning은 혁신적인 기술인 점진적 적대 증류( Progressive Adversarial Distillation ) 를 통해 이러한 장벽을 돌파하여 전례 없는 생성 속도를 달성합니다. 이 모델은 단 2~4단계만으로 매우 높은 품질과 해상도의 이미지를 생성할 수 있어 계산 비용과 시간을 10분의 1로 줄여줍니다. 우리의 방법은 일부 품질이 약간 희생될 수 있지만 시간 제한에 민감한 애플리케이션의 경우 1단계로 이미지를 생성할 수도 있습니다.

SDXL-Lightning은 속도 이점 외에도 이미지 품질 면에서 상당한 성능을 제공하고 평가에서 이전 가속 기술보다 뛰어난 성능을 제공합니다. 우수한 다양성과 이미지-텍스트 일치를 유지하면서 더 높은 해상도와 더 나은 세부 묘사를 얻을 수 있습니다.

속도 비교

기존 모델(20단계), 당사 모델(2단계)

모델 효과

우리 모델은 1단계, 2단계, 4단계, 8단계로 이미지를 생성할 수 있습니다. 추론 단계가 많을수록 이미지 품질이 좋아집니다.

4단계 프로세스의 결과는 다음과 같습니다.

2단계 빌드의 결과는 다음과 같습니다.

이전 방법(Turbo 및 LCM)과 비교하여 우리의 방법은 세부적으로 크게 개선되고 원본 생성 모델의 스타일과 레이아웃에 더욱 충실한 이미지를 생성합니다.

커뮤니티에 환원, 개방형 모델

오픈 소스의 물결은 인공 지능의 급속한 발전을 촉진하는 핵심 원동력이 되었으며, ByteDance는 이 물결의 일부가 된 것을 자랑스럽게 생각합니다. 우리 모델은 현재 가장 인기 있는 텍스트 생성 이미지 개방형 모델인 SDXL을 기반으로 하며 이미 생태계가 번성하고 있습니다. 이제 우리는 SDXL-Lightning을 전 세계의 개발자, 연구원 및 창의적인 실무자에게 공개하여 이들이 이 모델에 액세스하고 적용하여 업계 전반에 걸쳐 혁신과 협업을 더욱 촉진할 수 있도록 하기로 결정했습니다.

SDXL-Lightning을 설계할 때 개방형 모델 커뮤니티와의 호환성을 고려했습니다. 커뮤니티의 많은 아티스트와 개발자는 만화 및 애니메이션 스타일과 같은 다양한 스타일화된 이미지 생성 모델을 만들었습니다. 이러한 모델을 지원하기 위해 SDXL-Lightning을 속도 향상 플러그인으로 제공합니다. 이 플러그인은 다양한 스타일의 SDXL 모델에 원활하게 통합되어 다양한 모델의 이미지 생성 속도를 높일 수 있습니다.

우리 모델은 현재 매우 인기 있는 제어 플러그인인 ControlNet과 결합하여 매우 빠르고 제어 가능한 이미지 생성을 달성할 수도 있습니다.

우리 모델은 또한 현재 오픈 소스 커뮤니티에서 가장 널리 사용되는 생성 소프트웨어인 ComfyUI를 지원하며 모델을 직접 로드하여 사용할 수 있습니다.

기술 세부정보

이론적으로 이미지 생성은 노이즈에서 선명한 이미지로 단계별 변환 과정입니다. 이 과정에서 신경망은 변환 흐름의 다양한 위치에서 기울기를 학습합니다.

이미지를 생성하는 구체적인 단계는 다음과 같습니다. 먼저 스트림의 시작점에서 노이즈 샘플을 무작위로 샘플링한 다음 신경망을 사용하여 기울기를 계산합니다. 현재 위치의 그래디언트를 기반으로 샘플을 약간 조정한 다음 프로세스를 반복합니다. 반복할 때마다 샘플은 선명한 이미지를 얻을 때까지 최종 이미지 분포에 가까워집니다.

그림: 생성 프로세스 ( 사진 출처 : https://arxiv.org/abs/2011.13456 )

생성 흐름이 복잡하고 비선형적이기 때문에 생성 과정은 기울기 오류의 누적을 줄이기 위해 한 번에 작은 단계만 수행해야 하므로 신경망의 계산을 자주 수행해야 하므로 계산량이 많습니다.

그림: 곡선 프로세스 ( 사진 출처 : https://arxiv.org/abs/2210.05475 )

이미지 생성에 필요한 단계 수를 줄이기 위해 솔루션을 찾는 데 많은 연구가 진행되었습니다. 일부 연구에서는 오류를 줄이는 샘플링 방법을 제안하는 반면, 다른 연구에서는 생성된 흐름을 보다 선형적으로 만들려고 시도합니다. 이러한 방법의 발전에도 불구하고 이미지를 생성하려면 여전히 10개 이상의 추론 단계가 필요합니다.

또 다른 방법은 10개 미만의 추론 단계로 고품질 이미지를 생성할 수 있는 모델 증류입니다. 모델 증류는 현재 흐름 위치에서 기울기를 계산하는 대신 모델 예측 대상을 변경하여 다음으로 더 먼 흐름 위치를 직접 예측합니다. 구체적으로, 다단계 추론을 마친 후 교사 네트워크의 결과를 직접 예측하도록 학생 네트워크를 훈련시킵니다. 이러한 전략은 필요한 추론 단계 수를 크게 줄일 수 있습니다. 이 프로세스를 반복적으로 적용하면 추론 단계 수를 더욱 줄일 수 있습니다. 이전 연구에서는 이 접근법을 점진적 증류라고 불렀습니다.

그림: 점진적 증류 , 학생 네트워크는 여러 단계를 거친 후 교사 네트워크의 결과를 예측합니다.

실제로 학생 네트워크는 미래의 흐름 위치를 정확하게 예측하는 데 어려움을 겪는 경우가 많습니다. 각 단계가 누적됨에 따라 오류가 증폭되어 모델에서 생성된 이미지가 8단계 미만의 추론으로 흐려지기 시작합니다.

이 문제를 해결하기 위해 우리의 전략은 학생 네트워크가 교사 네트워크의 예측과 정확히 일치하도록 강제하는 것이 아니라 확률 분포 측면에서 학생 네트워크가 교사 네트워크와 일치하도록 만드는 것입니다. 즉, 학생 네트워크는 확률적으로 가능한 위치를 예측하도록 훈련되었으며, 이 위치가 완전히 정확하지 않더라도 불이익을 주지 않습니다. 이 목표는 학생과 교사 네트워크 출력의 분포 일치를 달성하는 데 도움이 되는 추가적인 차별적 네트워크를 도입하는 적대적 훈련을 통해 달성됩니다.

이것은 우리의 연구 방법에 대한 간략한 개요입니다. 기술 문서( https://arxiv.org/abs/2402.13929 )에서는 모델에 대한 보다 심층적인 이론적 분석, 교육 전략 및 구체적인 공식화 세부 정보를 제공합니다.

SDXL-Lightning 너머

본 연구에서는 주로 이미지 생성을 위해 SDXL-Lightning 기술을 사용하는 방법을 탐구하지만 제안된 점진적 적대 증류 방법의 응용 가능성은 정적 이미지에만 국한되지 않습니다. 이 혁신적인 기술을 사용하면 비디오, 오디오 및 기타 다중 모드 콘텐츠를 고품질로 신속하게 생성할 수도 있습니다. HuggingFace 플랫폼에서 SDXL-Lightning을 경험해 보시고 여러분의 소중한 의견과 피드백을 기다리겠습니다.

모델: https://huggingface.co/ByteDance/SDXL-Lightning

논문: https://arxiv.org/abs/2402.13929

동료 치킨 "오픈 소스" deepin-IDE 및 마침내 부트스트랩을 달성했습니다! 좋은 친구, Tencent는 Switch를 "생각하는 학습 기계"로 전환했습니다. Tencent Cloud의 4월 8일 실패 검토 및 상황 설명 RustDesk 원격 데스크톱 시작 재구성 웹 클라이언트 WeChat의 SQLite 기반 오픈 소스 터미널 데이터베이스 WCDB의 주요 업그레이드 TIOBE 4월 목록: PHP 사상 최저치로 떨어졌고 FFmpeg의 아버지인 Fabrice Bellard는 오디오 압축 도구인 TSAC를 출시했으며 Google은 대규모 코드 모델인 CodeGemma를 출시했습니다 . 오픈소스라서 너무 좋아요 - 오픈소스 사진 및 포스터 편집기 도구
{{o.이름}}
{{이름}}

추천

출처my.oschina.net/u/6210722/blog/11044777