베이징 대학교는 한 번의 클릭으로 드래그 앤 드롭을 실현할 수 있는 DragGAN을 업그레이드하기 위해 Diffusion을 사용하는 DragonDiffusion을 제안했습니다.

그림

 Xi Xiaoyao의 과학 기술 공유
 소스 | Qubit  
 작성자 | Ming Min

북경 대학 팀의 최신 작업인 확산 모델을 사용하여 P 맵을 끌어다 놓을 수도 있습니다!

조금만 클릭하면 설산을 더 크게 만들 수 있습니다.

그림

또는 태양이 뜨게하십시오.

그림

이것은 VILLA(Visual-Information Intelligent Learning LAB), Mr. Zhang Jian의 Peking University 팀, Peking University Shenzhen 대학원-Tuzhan Intelligence AIGC 공동 연구소 및 Tencent ARC Lab이 공동으로 가져온 DragonDiffusion입니다.

DragGAN의 변형으로 이해할 수 있습니다.

DragGAN은 현재 30,000개 이상의 GitHub Stars를 보유하고 있으며 기본 모델은 GAN(생성된 대결 네트워크)을 기반으로 합니다.

대형 모델 연구 테스트 포털

GPT-4 기능 연구 포털(고급/브라우저 경고의 경우 계속 방문):

gpt4test.com

그림

오랫동안 GAN은 일반화 능력과 이미지 품질에서 단점을 가지고 있었습니다.

그리고 이것이 확산 모델의 강점입니다.

따라서 Zhang Jian의 팀은 DragGAN 패러다임을 확산 모델로 확장했습니다.

업적이 공개되었을 때 Zhihu의 핫리스트에 올랐습니다.

그림

일부 사람들은 이것이 Stable Diffusion으로 생성된 그림의 부분적인 불완전성 문제를 해결하고 다시 그리기를 매우 잘 제어할 수 있다고 언급했습니다.

그림

사진에서 사자가 고개를 돌리게 만들기

Dragon Diffusion이 가져올 수 있는 효과에는 자동차 전면의 모양 변경도 포함됩니다.

그림

소파가 점차 커지도록 하세요.

그림

또는 수동으로 얇은 면:

그림

도넛을 다른 이미지에 넣는 것과 같이 사진의 개체를 교체하는 것도 가능합니다.

그림

또는 사자의 머리를 돌리십시오.

그림

방법 프레임워크에는 안내 분기와 생성 분기의 두 분기가 포함됩니다.

먼저 편집하고자 하는 이미지는 Diffusion의 역과정을 거쳐 두 가지의 입력으로 사용되는 확산 잠재 공간에서 이미지의 표현을 찾는다.

그 중 안내 브랜치는 원본 이미지를 재구성하고, 원본 이미지의 정보는 재구성 과정에서 아래의 생성 브랜치에 주입됩니다.

생성 분기의 역할은 원본 이미지와 주요 내용의 일관성을 유지하면서 원본 이미지를 편집할 수 있도록 정보를 안내하는 것입니다.

확산 모델의 중간 특징 사이의 강력한 대응에 따라 DragonDiffusion은 각 확산 반복에서 동일한 UNet 디노이저를 통해 두 분기의 잠재 변수 이미지를 특징 도메인으로 변환합니다.

그런 다음 두 개의 마스크와 해당 영역을 사용하십시오. 원본 이미지와 편집 이미지에서 드래그한 콘텐츠의 위치를 ​​보정한 후 해당 영역에 콘텐츠가 나타나도록 구속합니다.

이 논문은 코사인 거리를 사용하여 두 영역의 유사성을 측정하고 유사성을 정규화합니다.

그림

편집 후 내용 변경을 제한하는 것 외에도 원본 이미지와 편집되지 않은 다른 영역의 일관성도 유지되어야 합니다. 여기에서도 해당 영역의 유사성에 의해 제약이 수행됩니다. 마지막으로 총 손실 함수는 다음과 같이 설계됩니다.

그림

편집 정보 주입 측면에서 조건부 확산 과정을 점수 기반 확산을 통한 공동 점수 기능으로 간주합니다.

그림

편집 신호는 특징 간의 강한 일치성을 기반으로 한 점수 함수를 통해 기울기로 변환되고 확산 과정의 잠재 변수가 업데이트됩니다.

의미론적 정렬과 그래픽 정렬을 모두 고려하기 위해 저자는 이 가이드 전략을 기반으로 하는 다중 스케일 가이드 정렬 디자인을 소개합니다.

그림

또한 편집 결과와 원본 이미지의 일관성을 더욱 보장하기 위해 DragonDiffusion 방식으로 크로스 브랜치 셀프 어텐션 메커니즘이 설계되었습니다.

구체적인 방법은 생성된 분기 Self-Attention 모듈의 Key 및 Value를 교체하기 위해 Guided Branch Self-Attention 모듈의 Key 및 Value를 사용하여 기능 수준에서 참조 정보 주입을 실현하는 것입니다.

궁극적으로 제안하는 방법은 효율적인 디자인으로 생성된 이미지와 실제 이미지 모두에 대해 여러 편집 모드를 제공합니다.

여기에는 이미지에서 개체 이동, 개체 크기 조정, 개체 모양 바꾸기 및 이미지 콘텐츠 끌기가 포함됩니다.

그림

이 접근 방식에서는 모든 콘텐츠 편집 및 저장 신호가 추가 모듈의 미세 조정이나 교육 없이 이미지 자체에서 나오므로 편집 프로세스가 간소화됩니다.

실험에서 연구원들은 신경망의 첫 번째 레이어가 이미지를 정확하게 재구성하기에는 너무 얕다는 것을 발견했습니다. 그러나 네 번째 층을 재구성하면 너무 깊어 효과가 좋지 않습니다. 2층/3층에서 가장 잘 작동합니다.

그림

다른 방법에 비해 Dragon Diffusion의 제거 효과도 좋습니다.

그림

북경 대학의 Zhang Jian 팀 등에서

이 성과는 Zhang Jian의 Peking University, Tencent ARC Lab, Peking University Shenzhen 대학원-Tuzhan AIGC 공동 연구소 팀이 공동으로 가져왔습니다.

Zhang Jian의 팀은 확산 모델에서 생성된 콘텐츠를 정밀하게 제어할 수 있는 T2I-Adapter 개발을 주도한 적이 있습니다.

GitHub에서 Stars Super 2k를 살펴보세요.

그림

이 기술은 Stable Diffusion에서 그래피티 드로잉 도구인 Stable Doodle의 핵심 제어 기술로 공식 사용되었습니다.

그림

Tuzhan Intelligence와 Peking University 심층 연구 연구소가 설립한 AIGC 공동 연구소는 최근 이미지 편집 및 생성, 합법적인 AI 제품 및 기타 분야에서 획기적인 기술 성과를 달성했습니다.

불과 몇 주 전, 북경대-토끼 전시회 AIGC 합동 연구소는 대형 언어 모델 제품인 ChatLaw를 출시하여 Zhihu에서 인기 검색어 1위에 올랐습니다. .

그림

공동 연구실은 CV를 핵심으로 하는 다중 모달 대형 모델에 집중하고, 언어 분야에서 ChatLaw 뒤에 있는 ChatKnowledge 대형 모델을 계속 파고들며 수직 분야에서 반환상, 사유화 및 데이터 보안 문제를 해결할 것입니다. 법률 및 금융과 같은.

연구소는 가까운 시일 내에 Stable Diffusion의 오리지널 대형 모델을 출시할 예정이라고 합니다.

종이 주소: https://arxiv.org/abs/2307.02421

프로젝트 홈페이지: https://mc-e.github.io/project/DragonDiffusion/

그림

추천

출처blog.csdn.net/xixiaoyaoww/article/details/132093507