
본 글은 특히 전자상거래 분야에서 인공지능이 생성한 이미지의 품질을 평가하고 개선하기 위한 미적 기준을 공식화하고 적용하는 방법을 소개하며, 크게 미적 기준 정립, 미적 모델 훈련, 미적 적용의 4가지 범주로 나누어진다. 모델 및 Taobao 스타일 모델 업그레이드.

-
이미지 품질 표준: 현대적인 디자인 프레임워크에서는 정의된 이미지 품질 표준이 기본적으로 통일되어 있습니다. 기술과 기법의 정의에 중점을 두는 것은 그림, 그림, 사진, 영상의 품질 평가로도 확장됩니다. 이를 바탕으로 그림을 만드는 수단의 특성에 대한 요구와 강조가 있을 것입니다. -
이미지 콘텐츠 표준: 이념에 따른 표현 품질에 대한 요구 사항은 광범위하며 콘텐츠 표현 요구 사항을 충족하기 위해 이미지 품질 표준이 깨집니다. 이는 일반적으로 업계의 평론가나 심사위원 등 권위 있는 인물에 의해 정의되고 해석됩니다.
미학 프로젝트 목표
첫 번째 단계는 미적 표준을 제정하는 것입니다 . AI 도면 표준과 AI 스타일 표준을 공식화하고 중국 미술 아카데미 및 교수와 공동 연구합니다. 전문성, 타당성, 객관성 및 권위를 강조합니다 .
2단계 - 미적 모델 훈련: 기계가 자동으로 판단하고 채점할 수 있도록 AI 미적 기준을 기반으로 미적 판단 모델을 육성합니다.
3단계 - 미적 모델 적용: 미적 모델 기능을 기반으로 Taobao AI 이미지 생성 모델의 최적화 및 업그레이드를 안내합니다.
4단계 - Taobao 스타일 모델 업그레이드: 스타일 표준을 기반으로 Taobao 스타일 모델 라이브러리를 구축하여 판매자가 선택할 수 있는 풍부하고 다양한 스타일 모델을 제공합니다. Taobao 스타일 모델을 만듭니다.

기준 프레임워크는 "이미지"의 구성 요소를 기반으로 정의되는 동시에 " AI 생성 특성 " 에 초점을 맞춰 미적 기준을 구축합니다.
이미지 구성 : 사물의 모양/환경/구성/빛과 그림자/질감
AI 생성 특성: 요소 진정성 및 장면 합리성
AI 미적 기준: 5가지 지침, 19가지 기준

미적 모델 목표: 자동 기계 채점 및 이미지 판단의 정확성을 향상시킵니다.
-
정확도 : 동일한 그림에 심미적 AI 채점과 수동 채점을 실시하여 인간과 기계 점수의 중복률을 취합니다.
▐ 몰입형 경험
우리의 AI 미적 평가 모델은 다중 모드 미적 사전 훈련 및 다중 작업 미세 조정 학습 방법을 채택합니다. 이렇게 하면 다음과 같은 이점이 있습니다.
우리 모델은 매개변수 수가 적고, 빠른 훈련 반복과 빠른 추론 속도가 가능하고, 매우 아름다운 이미지를 신속하게 선별할 수 있으며, 다양한 세대 모델의 생성 효과를 평가할 수 있어 수동 주석 및 검토 비용이 절감됩니다.
미적 점수만 출력하는 모델과 비교하여 우리 모델은 생성된 이미지의 비정상적인 속성을 출력할 수 있어 해석 가능성이 더 높습니다.
-
우리 모델이 출력한 비정상적인 속성은 이미지 복원을 위한 사전 판별자로 사용될 수 있으며, 비정상적으로 생성된 이미지 마킹에 대한 생성 모델을 최적화하는 데에도 사용될 수 있습니다.
▐훈련 과정
-
채점 규칙을 공식화합니다: AI 생성 이미지에 대한 채점 사양(5단계), 원본 이미지 심사에 대한 채점 규칙(3단계). -
원본 마네킹 이미지의 심미성을 평가하는 능력: 마네킹, 환경, 구도, 빛과 그림자, 질감 등 이미지 품질에 대한 선호도를 바탕으로 원본 마네킹 이미지의 특화된 미적 모델을 학습하여 심미적 레이어링을 수행합니다. . 필터링 가능한 미적 수준이 낮은 유형에는 흐릿한 이미지, 흰색 테두리가 있는 이미지 또는 질감, 불완전하거나 잘린 사람 얼굴, 심하게 가려진 인체, 열악한 배경 또는 열악한 전반적인 미적 미학 등이 포함됩니다. -
원본 사진의 AIGC 미적 평가 능력: 당사의 원본 사진에 대한 AIGC 미적 평가는 주로 캐릭터가 포함된 원본 사진을 대상으로 하며, 사진의 합리성에 초점을 맞추고 사진의 통합에 중점을 두고 점수를 구성합니다. 5가지 주요 기준과 19가지 표준 요구 사항에 따라 원시 그래프의 비정상적인 속성을 표시합니다. 현재 우리 모델이 지원하는 비정상 속성에는 사람과 배경의 비정상적 통합(허공에 매달린 캐릭터, 불량한 배경 질감 등), 손 이상, 얼굴 이상, 사지 이상, 기타 이상 등이 포함됩니다. 출력되는 미적 점수 범위 1점부터 5점까지.
그림: AIGC 원시 이미지 미적 평가를 통해 예측된 다양한 미적 점수 사진
합리적인 교육: 고품질 데이터를 보장하기 위해 인간과 기계 간의 여러 차례의 일치 검증을 수행합니다.
1차 채점 테스트 : 3명의 평균점수를 취하여 데이터를 축적하여 객관적인 채점을 보장합니다. 차이점 섹션에서는 차이점이 제시하는 구체적인 문제점을 재해석합니다. 확인을 다시 수행하십시오. 강령에 대한 다양한 사람들의 해석이 일관되고 안정적인지 확인하십시오(5점 시스템).
2차 AI 채점 검증 : 3명의 평균점수를 취하여 기계로 교정하고, 점수에 차이가 있는 경우 그 차이의 구체적인 문제점을 재해석하여 사람의 문제인지 기계의 문제인지 명확히 합니다. 두 가지가 점차적으로 일관성을 유지하고 기계의 정확성을 보장합니다. (이는 AI 판단 모델의 첫 번째 버전이 출시된 이후부터 시작됩니다.)
기술 프레임워크
AIGC 원시 드로잉 미적 평가: 디자이너가 정의한 5가지 미적 기준을 기반으로 5가지 품질 수준으로 매핑됩니다. 동시에 생성된 데이터에 대한 귀납적 분석을 실시하여 정상, 사람과 배경의 비정상 융합, 손 이상, 안면 붕괴, 신체 이상, 기타 이상 등 5가지 주요 속성을 요약했습니다. 품질 수준과 속성 이유를 결합하여 미적 평가 프롬프트 단어를 형성하고 이는 다중 모드 사전 학습 모델의 입력으로 사용됩니다. 손실 함수는 미적 점수 회귀 손실과 속성 이유 다중 레이블 분류 손실을 사용합니다.
원본 마네킹 이미지의 미적 평가: CLIP은 이미지 품질, 색상, 조명, 구도, 추상적 개념 등에 대한 미적 평가 측면에서 양호/불량 분류의 우수한 제로샷 기능을 갖추고 있습니다. 따라서 사전 훈련 단계에서는 CLIP의 이미지 인코더를 증류하여 백본의 미적 표현 능력을 향상시킵니다. 미세 조정 단계에서는 개선된 백본을 사용하여 정규화된 미적 점수를 예측합니다. 손실 함수는 모델의 성능과 견고성을 향상시키기 위해 L1 손실과 이진 교차 엔트로피 손실로 가중치를 부여합니다. 모델 훈련이 완료된 후 다양한 임계값을 선택하여 다양한 미적 수준을 갖춘 인간 모델 사진을 계층화할 수 있습니다.
▐테스트 단계
-
조정 다양성: Qianniu 플랫폼에서 Taobao의 내부 [Qianniu 지능형 모델] 및 Taobao의 외부 제3자 모델을 테스트합니다. 동일한 종류의 마네킹을 평가한 결과 호환성이 있는 것으로 나타났으나 상당한 차이가 있었습니다. 특정 이미지 문제를 크롤링할 때 업로드된 원본 이미지의 품질이 정확성에 영향을 미치는 것으로 나타났습니다. 공정성을 보장하려면 테스트 아틀라스에 대한 표준을 개발해야 합니다. -
기계 채점의 진위성 : 정확도 비율은 매주 어느 정도 변동되며, 모델 조건을 기반으로 표준 테스트 세트가 구성됩니다. AI 및 수동 채점을 위해 1,200개의 표준 테스트 세트를 사용합니다(원본 그림의 난이도가 AI 판단에 영향을 미친다는 점을 고려하여 테스트 세트는 쉬움, 중간, 어려움의 3단계로 1:1:1 비율로 구분됨). . -
기계 채점에 대한 엄격한 테스트: 조정된 채점 모델은 새로 생성된 이미지를 자동으로 채점하고 이를 사람의 점수와 비교합니다.

목표: 미적 모델을 사용하여 Taobao AI 대형 모델의 좋은 그림 비율을 높입니다.
▐미적 모델 버전 1.0 - AI 이미지 평가 기능 적용:
-
목표: 미적 모델을 사용하여 Taobao 생성 모델을 평가하고, 그림 점수 및 그림 문제를 결정하고, 식별된 그림 문제를 수정합니다. -
판단 능력: 사진에 점수를 매기고(1~5점) 좋은 사진과 나쁜 사진을 가려내고 모델에 대한 후속 최적화 제안을 안내할 수 있습니다. -
인식 능력: 현재 5가지 주요 화면 속성을 피드백할 수 있습니다. (1. 손의 이상. 2. 배경과 어울리지 않는 인물. 3. 얼굴의 이상. 4. 신체의 이상. 5. 기타). -
修复能力:AIGC生成人物时画好的手一直是难点,人的手部自由度高且姿态复杂多变、图中占比小且细节多,导致画手的成功率不高。特别地,在实际业务中,由于用户上传的图片手部细节不明显或者手中拿着物品等复杂场景,在进行换模特换背景时,生成模型往往不能学到手部的准确细节特征导致画出不好的手。我们探索全新的手部修复技术方案。由 AI美学评价模型判断生成异常的手,对异常的手,利用3D手部状态重建模型保持正确的手指数量与手的形状,同时能够自适应生成图像中所需的手势。基于我们内部基底模型,融合Text Embedding,根据重建后的手部姿态重新绘制正常的手。经过反复调试参数和场景适配,我们的手部修复方案在业务数据上测试,修复成功率超过50%,可大幅度提高整体的生图良图率。手部修复的case如下:
▐ 美学模型2.0版本-应用原图评测能力
目标:调优淘宝基地模型,目前有混杂的原图数据集,数据集质量参差不齐,需要进行有效的筛选优化。
背景:目前原图数据集来源核心是两部分:视觉中国和淘宝模特图。
视觉中国的摄影图核心是供给给新闻稿做新闻配图,因此大量的图片为了营造故事性对人物和场景有独特的表达。淘宝模特图商家已经做了后期处理,有些诸如模特的处理已经比较夸张。筛选优质原图:通过原图判定模型,筛选优质摄影图,调优自研模型等数据集效果。提升生图的良图率。(如多人混乱、背景混乱,场景融合感等效果可提升)。
收集专业摄影原图:目前通过设计团队搜集优质的摄影模特图。-
1.0版本的AI美学评价模型影响生成模型,使生成模型自适应对齐人类偏好:AI美学评价可用于指导基于扩散的生成模型,不仅指导生成模型要生成高美学图像,也需要减少生成低美学图像的概率。为了解决这个问题,我们利用AI美学评价模型在低美学异常生成图像加上异常属性标签,增强模型学习异常生成图像概念的能力,可以在推理阶段避免。
第四步:升级淘宝风格模型
▐ 风格的背景情况
目前风格选择的丰富性不足,生图的场景和人物集中在特定的几个类型上。原先对于风格的设定采用穷举的方式。如背景生成的场景基本上是泳池、花园、商场、海滩、森林、雪山。
因为原图本身的来源关系,图片的地域场景特色基本是西式。诸如东南亚的海滩、欧式花园、美式商场、美式泳池、北欧雪山。
因为采用穷举的方式,导致工具的选择项过多,体验比较复杂,商家使用过程中会选择困难,采用不断尝试的方式。
▐ 风格的框架设定
-
对应美学标准的五大原则。进行细分的穷举,作为组合因子。 -
风格类型分为平台品牌风格、趋势热点风格、经典艺术风格三类。 -
基于风格趋向进行因子组合。形成风格的多元组合。

▐ 风格标准的运用

▐ 后续计划
美学标准:发布淘宝AI美学标准,联动中国美术学院完成。
风格标准:风格化标准完善,建立淘宝独有的风格体系。同时在产品侧进行测试。
-
产品能力:发布 AI paas产品能力,联动千牛产品团队部署上线,提供给集团相关自研AI与第三方AI进行服务,也同步提升兼容性。
本文分享自微信公众号 - 大淘宝技术(AlibabaMTT)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。