빈센트의 프롬프트는 더 이상 냄새나고 길지 않습니다! LLM 강화 확산 모델, 간단한 문장으로 고품질 이미지 생성 가능

그림

시샤오야오의 기술 공유
소스 | Xinzhiyuan

매개변수 효율적인 미세 조정 방법 SUR 어댑터는 텍스트-이미지 확산 모델의 키워드 이해 능력을 향상시킬 수 있습니다.

확산 모델은 텍스트 단서의 안내를 기반으로 고품질의 콘텐츠가 풍부한 이미지를 생성할 수 있는 주류 텍스트-이미지 생성 모델이 되었습니다.

그러나 입력 프롬프트가 너무 간결하면 기존 모델은 의미 이해와 상식 추론 모두에 한계가 있어 생성된 이미지의 품질이 크게 저하됩니다.

내러티브 단서를 이해하는 모델의 능력을 향상시키기 위해 Sun Yat-sen 대학 HCP 연구소의 Lin Ling 팀은 간단하고 효과적인 매개변수 효율적인 미세 조정 방법 SUR-어댑터, 즉 의미론적 이해 및 추론 어댑터를 제안했습니다. 사전 훈련된 확산 모델에 적용할 수 있습니다.

그림

논문 주소:
https://arxiv.org/abs/2305.05189

오픈소스 주소:
https://github.com/Qrange-group/SUR-adapter

    대형모델 연구 시험포탈

GPT-4 포털(벽이 없으며 고급 브라우저 경고 지점이 나타나면 직접 테스트 가능/계속 방문):
안녕하세요, GPT4!

이 목표를 달성하기 위해 연구자들은 먼저 의미론적으로 수정된 57,000개 이상의 다중 모달 샘플을 포함하는 데이터 세트 SURD를 수집하고 레이블을 지정했습니다. 각 샘플에는 간단한 설명 프롬프트, 복잡한 키워드 기반 프롬프트 및 고품질 이미지가 포함되어 있습니다.

그런 다음 연구자는 서사적 단서의 의미적 표현을 복잡한 단서와 정렬하고 지식 증류를 통해 LLM(대형 언어 모델)의 지식을 SUR 어댑터에 전달함으로써 강력한 의미적 이해 및 추론 능력을 확보하여 고품질 구축을 수행할 수 있습니다. 텍스트-이미지 생성을 위한 텍스트 의미 표현.

그림

실험은 여러 LLM과 사전 훈련된 확산 모델을 통합하여 수행되며, 결과는 이 방법이 이미지 품질을 저하시키지 않으면서 확산 모델이 간결한 자연어 설명을 효과적으로 이해하고 추론할 수 있음을 보여줍니다.

이 접근 방식은 더 나은 사용자 경험으로 텍스트-이미지 확산 모델을 더 쉽게 사용할 수 있게 하며, 단순한 서술적 단서와 복잡한 키워드 기반 사이의 격차를 해소하는 사용자 친화적인 텍스트-이미지 생성 모델의 개발을 더욱 발전시킬 수 있습니다. 의미론적 격차를 암시합니다.

배경 소개

현재 Stable 확산으로 대표되는 text-to-image 사전 훈련 확산 모델은 AIGC 분야에서 가장 중요한 기본 모델 중 하나로 자리 잡았으며, 이미지 편집, 비디오 생성, 3D 객체 등의 작업에서 중요한 역할을 하고 있습니다. 세대.엄청난 효과.

그러나 이러한 현재 사전 훈련된 확산 모델의 의미론적 능력은 주로 CLIP과 같은 텍스트 인코더에 의존하며, 의미 이해 능력은 확산 모델의 생성 효과와 관련이 있습니다.

이 문서에서는 먼저 "계산(count)", "색상(color)" 및 "액션(action)"과 같이 시각적 질문 응답 작업(VQA)에서 일반적으로 사용되는 질문 범주의 해당 텍스트 프롬프트를 구성하여 수동으로 계산하고 안정적인 확산 정확도의 그래픽-텍스트 일치를 테스트합니다.

다음 표에는 구성된 다양한 프롬프트의 예가 나와 있습니다.

그림

결과는 아래 표와 같습니다. 기사에서는 현재의 Wensheng 그래프 사전 학습 확산 모델이 심각한 의미 이해 문제를 가지고 있음을 밝혔습니다. 많은 문제에 대한 그래프와 텍스트의 일치 정확도는 50% 미만입니다. 일부 문제는 정확도가 0%에 불과합니다.

그림

따라서 텍스트 생성에 적합한 이미지를 얻기 위해서는 사전 훈련된 확산 모델에서 인코더의 의미론적 능력을 향상시킬 수 있는 방법을 찾는 것이 필요합니다.

방법 개요

1. 데이터 준비

첫째, 일반적으로 사용되는 확산 모델 온라인 웹사이트인 lexica.art, civitai.com 및 stablediffusionweb에서 다수의 이미지-텍스트 쌍을 얻은 후 정리 및 선별하여 57,000개 이상의 고품질(복잡 프롬프트, 단순 프롬프트, 이미지) 삼중항 데이터로 구성되어 SURD 데이터 세트를 구성합니다.

그림

그림과 같이 복합 프롬프트는 이미지 생성 시 확산 모델에서 요구하는 텍스트 프롬프트 조건을 말하며, 일반적으로 이러한 텍스트 프롬프트는 복잡한 형식과 설명을 가지고 있습니다. 단순 프롬프트는 BLIP이 이미지에 대해 생성한 텍스트 설명으로, 사람의 설명을 따르는 언어 형식입니다.

일반적으로 정상적인 인간 언어의 설명에 부합하는 간단한 프롬프트는 확산 모델이 충분한 의미 이미지를 생성하도록 하기 어려운 반면, 복잡한 프롬프트(사용자는 농담으로 확산 모델의 "주문"이라고도 함)는 만족스러운 결과를 얻을 수 있습니다. .

2. 대규모 언어 모델 의미 추출

본 논문에서는 특정 은닉층에서 대규모 언어 모델의 의미적 특징을 추출하기 위해 변환기 구조의 Adapter를 소개하고, Adapter가 안내하는 대규모 언어 모델의 정보와 원본 텍스트 인코더에서 출력되는 의미적 특징을 선형적으로 결합하여 최종 의미론적 특징.

그 중 대형 언어 모델은 다양한 크기의 LLaMA 모델을 사용합니다. 확산 모델의 UNet 부분의 매개변수는 훈련 과정 전반에 걸쳐 고정됩니다.

그림

3. 이미지 품질 복원

본 논문의 구조는 사전 학습 대형 모델의 추론 과정에서 학습 가능한 모듈을 도입하기 때문에 사전 학습 모델의 원본 이미지 생성 품질이 어느 정도 파괴되므로 이미지 생성 품질이 필요합니다. 원래의 사전 훈련 모델 수준으로 돌아갑니다.

그림

본 논문에서는 SURD 데이터세트의 트리플을 사용하여 이미지 생성 품질을 복원하기 위한 훈련에 해당 품질 손실 함수를 도입합니다. 복합 프롬프트의 의미론적 특징을 가지고 있습니다. .

아래 그림은 사전 훈련된 확산 모델을 위한 SUR 어댑터의 미세 조정 프레임워크를 보여줍니다. 어댑터의 네트워크 구조는 오른쪽에 있습니다.

그림

실험 결과

본 논문에서는 의미 매칭과 이미지 품질이라는 두 가지 관점에서 SUR-adapter의 성능을 검토한다.

한편, 아래 표에 표시된 것처럼 SUR 어댑터는 다양한 실험 설정에서 Vinsen 그래프 확산 모델의 일반적인 의미 불일치 문제를 효과적으로 완화할 수 있습니다. 의미론적 기준의 다양한 범주에서는 정확도가 어느 정도 향상됩니다.

한편, 본 논문에서는 일반적으로 사용되는 BRISQUE 및 기타 일반적으로 사용되는 이미지 품질 평가 지표를 사용하여 원래의 pretrain 확산 모델과 SUR-adapter를 사용한 후 확산 모델에 의해 생성된 영상의 품질을 통계적으로 테스트한다는 것을 알 수 있습니다. 둘 사이에는 큰 차이가 없습니다.

우리는 또한 이것을 인간 선호도 설문지로 테스트했습니다.

위의 분석은 제안된 방법이 이미지 생성 품질을 유지하면서 사전 학습된 텍스트-이미지에 내재된 이미지-텍스트 불일치 문제를 완화할 수 있음을 보여줍니다.

그림

그림

또한, 아래 그림과 같이 이미지 생성의 예를 정성적으로 보여줄 수도 있으며, 보다 자세한 분석 및 세부사항은 본 글과 오픈소스 저장소를 참고하시기 바랍니다.

그림

그림

HCP 연구실 소개

쑨원대학교 인간-컴퓨터-물리 지능 융합 연구소(HCP Lab)는 Lin Ji 교수가 2010년에 설립했습니다. 최근 몇 년 동안 다중 모드 콘텐츠 이해, 인과 및 인지 추론, 구체화된 지능 분야에서 풍부한 학문적 성과를 거두었습니다. 등 국내외 과학기술상, 우수논문상 등 다수의 수상 경력을 보유하고 있으며, 제품 수준의 AI 기술 및 플랫폼 창출에 전념하고 있습니다.

추천

출처blog.csdn.net/xixiaoyaoww/article/details/132570379