독점 이미지를 만들기 위한 사진 3장! Kuwa FaceChain이 개인 사진 오픈소스 프로젝트 Renren AIGC를 복호화합니다!

1. 배경

각종 AI 사진 소프트웨어는 정확한 개인 이미지 + 절묘한 생성 효과로 인해 친구들의 범위를 폭발시켰으며, 증명 사진은 사용자의 요구를 충족시키고, 의상 사진과 같은 스타일 사진은 "아름다운 사진"에 대한 사용자의 요구를 충족시킵니다.

멋진 개구리 FaceChain 오픈 소스 프로젝트 팀은 오픈 소스 커뮤니티 개발자의 힘을 결합하여 사진 애플리케이션을 더욱 흥미롭고 재미있게 만들고 더 많은 애플리케이션 시나리오를 갖기를 희망하면서 오픈 소스 버전을 출시했습니다. 불과 며칠 만에 이 오픈소스 프로젝트의 스타 수가 500명을 넘어섰습니다. 링크를 클릭하는 모든 분들을 환영합니다. (현지 경험을 따라갈 수 있으며, 좋다고 생각하면 별표를 클릭할 수 있습니다. 여러분의 격려가 우리의 가장 큰 동기가 됩니다. 우리는 계속해서 애플리케이션을 혁신하고 확장할 것입니다.): https: // github.com/modelscope/facechain . 온라인 체험, 모타 커뮤니티는 공간 체험 환경을 조성합니다: 캐릭터 초상화 생성 .

2. 효과 표시

사업자등록증 생성사례는 다음과 같습니다(공인~)

입력하다:

산출:

3. 원리 설명 (여기서 핵심이 나옵니다!)

이번 편에서는 개인 사진 모델의 핵심 기술 포인트를 공개하겠습니다.

개인 사진 모델 흐름도

1. 기본 원칙:

개인 초상화 모델의 능력은 Stable Diffusion 모델의 Vincent 다이어그램 기능에서 비롯됩니다. 이는 텍스트 또는 일련의 프롬프트 단어를 입력하고 해당 이미지를 출력합니다. 개인 사진 생성 효과에 영향을 미치는 주요 요인인 사진 스타일 정보, 사용자 캐릭터 정보를 고려합니다. 이를 위해 오프라인 학습 스타일 LoRA 모델과 온라인 학습 얼굴 LoRA 모델을 각각 사용하여 위의 정보를 학습합니다. LoRA는 학습할 수 있는 매개변수가 적은 미세 조정 모델로, Stable Diffusion에서는 소수의 입력 영상에 대해 Vinsen 그래프 학습을 수행하여 입력 영상의 정보를 LoRA 모델에 주입할 수 있습니다. 따라서 개인 초상화 모델의 능력은 훈련과 추론의 두 단계로 나누어지며, 훈련 단계에서는 Stable Diffusion 모델을 미세 조정하는 데 사용되는 이미지 및 텍스트 레이블 데이터를 생성하여 얼굴 LoRA 모델을 얻습니다. 얼굴 LoRA 모델과 스타일 LoRA 모델을 기반으로 스테이지를 생성한 개인 사진 이미지입니다.

2. 훈련 단계:

입력: 선명한 얼굴 영역이 포함된 사용자 업로드 이미지

출력: 얼굴 LoRA 모델

설명: 먼저 방향 판단을 기반으로 한 이미지 회전 모델과 얼굴 검출 및 키 포인트 모델을 기반으로 한 정제된 얼굴 회전 방법을 사용하여 사용자가 업로드한 이미지를 처리하고 긍정적인 얼굴이 포함된 이미지를 획득합니다. 인체 구문 분석 모델과 초상화 미화 ​​모델을 사용하여 고품질 얼굴 훈련 이미지를 얻은 다음, 얼굴 속성 모델과 텍스트 주석 모델을 레이블 후처리 방법과 결합하여 훈련 이미지에 대한 정제된 레이블을 생성합니다. 위 이미지와 라벨 데이터를 사용하여 Stable Diffusion 모델을 미세 조정하여 얼굴 LoRA 모델을 얻습니다.

3. 추론 단계:

입력: 사용자는 훈련 단계에서 이미지를 업로드하고, 개인 사진 생성을 위해 미리 설정된 입력 프롬프트 단어를 입력합니다.

출력 : 개인 사진 이미지

설명: 먼저 얼굴 LoRA 모델과 스타일 LoRA 모델의 가중치를 Stable Diffusion 모델에 융합한 다음 Stable Diffusion 모델의 Wensheng 지도 기능을 사용하여 사전 설정된 입력 프롬프트를 기반으로 개인 초상화 이미지를 초기에 생성했습니다. 그런 다음 얼굴 융합 모델을 사용하여 위 사진 이미지의 얼굴 세부 사항을 더욱 향상시켰으며 융합에 사용된 템플릿 얼굴은 얼굴 품질 평가 모델에 의해 훈련 이미지에서 선택되었습니다. 마지막으로 얼굴 인식을 사용합니다. 모델을 통해 생성된 사진 이미지를 계산하여 템플릿 얼굴과의 유사성을 기준으로 사진 이미지를 정렬하고, 상위 순위의 개인 사진 이미지를 최종 출력 결과로 출력합니다.

첨부 파일(흐름도의 모델 링크):

[1] 얼굴 검출 + 키포인트 모델 DamoFD: https://modelscope.cn/models/damo/cv_ddsar_face-Detection_iclr23-damof

[2] 이미지 회전 모델: Genspace에 내장된 모델

[3] 인체 분석 모델 M2FP: M2FP 다인 인체 분석

[4] 인물 뷰티 모델 ABPN: ABPN 인물 뷰티

[5] 얼굴 속성 모델 FairFace: 얼굴 속성 인식 모델 FairFace

[6] 텍스트 주석 모델 Deepbooru: https://github.com/KichangKim/DeepDanbooru

[7] 템플릿 얼굴 스크리닝 모델 FQA: 얼굴 품질 모델 FQA

[8] 얼굴 융합 모델: 이미지 얼굴 융합

[9] 얼굴 인식 모델 RTS: 얼굴 인식 OOD 모델

4. 라이브 재생

검색 결과 멋진 개구리 FaceChain 오픈 소스 프로젝트 공개: AI 개인 초상화를 만들기 위한 사진 3장

【동시방송 채널】

  • Mota ModelScope 커뮤니티 비디오 계정

  • Alibaba Cloud 비디오 번호

  • Ali Dharma Sweeping Monk 비디오 번호

5. 오픈소스 모집

Coolwa FaceChain 프로젝트는 오픈 소스화되었으며, 오픈 소스 커뮤니티의 힘을 바탕으로 오픈 소스 프로젝트를 계속해서 다듬고, 더 높은 수준의 게임 플레이를 구현하고, 더 깊은 알고리즘 혁신을 수행하고, 이에 상응하는 최고의 컨퍼런스 논문을 출판할 계획입니다. . 이 오픈 소스 프로젝트에 관심이 있고, 이 오픈 소스 프로젝트의 미래에 대한 비전과 믿음이 있으며, 함께 뭔가를 하고 싶다면 QR 코드를 스캔하여 참여하세요.

처음에 연마해야 할 모듈은 다음과 같습니다.

1.) 더욱 사진 스타일의 로라 모델 훈련

2.) 적응형 스키마 + 멀티로라 융합 모듈 탐색

3.) 전문적인 얼굴 프롬프트 모델 교육

4.) 전문 SD 캐릭터 사진 스키마 교육

5.) 캐릭터 속성에 대한 보다 신속한 탐색

6.) 스왑 페이스 모듈의 연마 및 최적화

7.) 여성 전문 뷰티 후처리 모듈 탐색

8.) 높은 수준의 애플리케이션 탐색: (예: 이모티콘, 캐릭터 다이내믹 비디오, 게임 캐릭터 디자인, 영화 및 TV 애니메이션 캐릭터 디자인 등)

Guess you like

Origin blog.csdn.net/sunbaigui/article/details/132269677