
Este artigo apresenta como formular e aplicar padrões estéticos para avaliar e melhorar a qualidade das imagens geradas pela inteligência artificial, especialmente na área de e-commerce. É dividido principalmente em quatro categorias: formulação de padrões estéticos, treinamento de modelos estéticos, aplicação estética. modelos e atualização de modelos de estilo Taobao.

-
Padrões de qualidade de imagem: Na estrutura de design moderno, os padrões de qualidade de imagem definidos são basicamente unificados. O foco na definição de habilidades e técnicas também se estende à avaliação da qualidade de quadros, pinturas, fotos e imagens. Nesta base, haverá requisitos e ênfase nas características dos meios de confecção de quadros. -
Padrões de conteúdo de imagem: Os requisitos de qualidade de expressão sob a ideologia são extensos e os padrões de qualidade de imagem serão quebrados para atender às necessidades de expressão de conteúdo. Geralmente é definido e interpretado por figuras de autoridade, como críticos ou juízes do setor.
Metas do Projeto de Estética
O primeiro passo é formular padrões estéticos : formular padrões de desenho de IA e padrões de estilo de IA e pesquisar em conjunto com a Academia de Arte da China e professores. Destacar profissionalismo, pertinência, objetividade e autoridade.
Etapa 2 - Treinamento do modelo estético : Cultive um modelo de julgamento estético baseado em padrões estéticos de IA para que a máquina possa julgar e pontuar automaticamente.
Etapa 3 - Aplicar o modelo estético : Orientar a otimização e atualização do modelo de geração de imagens Taobao AI com base nas capacidades do modelo estético.
Etapa 4 - Atualizar o modelo de estilo Taobao: Estabeleça uma biblioteca de modelos de estilo Taobao baseada em padrões de estilo, para que os comerciantes tenham um modelo de estilo rico e diversificado para escolher. Crie um modelo de estilo Taobao.

A estrutura de critérios é definida com base nos componentes da “imagem”, focando nas “ características geradas pela IA ” para construir padrões estéticos:
Composição da imagem: forma do objeto/ambiente/composição/luz e sombra/textura
Características de geração de IA: autenticidade do elemento e racionalidade da cena
Padrões estéticos de IA: 5 diretrizes, 19 padrões

Objetivo do modelo estético: Melhorar a precisão da pontuação automática da máquina e do julgamento das imagens.
-
Taxa de precisão: a mesma imagem é submetida à pontuação estética de IA e à pontuação manual, e a taxa de sobreposição entre as pontuações humanas e de máquina é obtida.
▐Experiência imersiva
Nosso modelo de avaliação estética de IA adota pré-treinamento estético multimodal e métodos de aprendizagem de ajuste fino multitarefa. As vantagens de fazer isso são as seguintes:
Nosso modelo tem menos parâmetros, permite iterações de treinamento rápidas, velocidade de inferência rápida, pode exibir rapidamente imagens de alta estética e também pode avaliar os efeitos de geração de diferentes modelos de geração, reduzindo anotação manual e custos de revisão;
Comparado com modelos que geram apenas pontuações estéticas, nosso modelo pode gerar atributos anormais de imagens geradas, que possuem maior interpretabilidade;
-
Os atributos anormais gerados pelo nosso modelo podem ser usados como um pré-discriminador para restauração de imagens e também podem ser usados para otimizar o modelo de geração para marcação de imagens geradas anormalmente;
▐Processo de treinamento
-
Formular regras de pontuação: especificações de pontuação para imagens geradas por IA (5 níveis) e regras de pontuação para triagem de imagens originais (3 níveis). -
Capacidade de avaliar a estética da imagem original do manequim: Com base na preferência pela qualidade da imagem, como manequim, ambiente, composição, luz e sombra, textura, etc., um modelo estético especializado da imagem original do manequim é treinado para camadas estéticas . Os tipos pouco estéticos filtráveis incluem imagens borradas, imagens ou texturas com bordas brancas, rostos humanos incompletos ou cortados, corpos humanos fortemente bloqueados, fundos ruins ou estética geral ruim, etc. -
Capacidade de avaliação estética AIGC de imagens brutas: Nossa avaliação estética AIGC de imagens brutas visa principalmente imagens brutas contendo personagens A partir de dois aspectos, focando na racionalidade da imagem e focando na integração da imagem, a pontuação é formulada com base. em 5 critérios principais e 19 requisitos padrão e, ao mesmo tempo, marcar os atributos anormais do gráfico bruto. Os atributos anormais atualmente suportados por nosso modelo incluem integração anormal entre as pessoas e o fundo (personagens suspensos no ar, textura de fundo ruim, etc.), anormalidades nas mãos, anormalidades faciais, anormalidades nos membros, outras anormalidades, etc. de 1 a 5 pontos.
Figura: Imagens de diferentes pontuações estéticas previstas pela avaliação estética da imagem bruta AIGC
Treinamento razoável: múltiplas rodadas de verificação de correspondência entre humanos e máquinas para garantir dados de alta qualidade.
1 rodada de teste de pontuação: calcule a pontuação média de 3 pessoas para acumular dados e garantir uma pontuação objetiva. A seção de diferença reinterpreta os pontos problemáticos específicos apresentados pela diferença. Execute a verificação novamente. Certifique-se de que as interpretações do Código por diferentes pessoas sejam consistentes e estáveis (sistema de 5 pontos).
2 rodadas de verificação de pontuação de IA: pegue a pontuação média de 3 pessoas e revise-a com a máquina. Se houver uma diferença na pontuação, reinterprete os pontos específicos do problema da diferença para esclarecer se é um problema humano ou de máquina, garantindo que os dois sejam gradualmente consistentes e garantindo a precisão da máquina. (Isso começará após a primeira versão do modelo de julgamento de IA estar disponível).
quadro técnico
Avaliação estética do desenho bruto AIGC: baseada nos critérios estéticos de 5 pontos definidos pelo projetista, mapeados em cinco níveis de qualidade. Ao mesmo tempo, conduzimos uma análise indutiva dos dados gerados e resumimos cinco atributos principais: normal, fusão anormal de pessoa e histórico, anormalidade nas mãos, colapso facial, anormalidade corporal e outras anormalidades. O nível de qualidade e os motivos dos atributos são combinados para formar uma palavra de alerta de avaliação estética, que é usada como entrada do modelo de pré-treinamento multimodal. A função de perda usa perda de regressão de pontuação estética e perda de classificação multirótulo de motivo de atributo.
Avaliação estética da imagem original do manequim: O CLIP possui uma boa capacidade de tiro zero de classificação bom/ruim em termos de avaliação estética da qualidade da imagem, cor, iluminação, composição, conceitos abstratos, etc. Portanto, na fase de pré-treinamento, melhoramos a capacidade de representação estética do backbone destilando o codificador de imagem CLIP. O estágio de ajuste fino usa a estrutura aprimorada para prever a pontuação estética normalizada. A função de perda é ponderada pela perda L1 e pela perda de entropia cruzada binária para melhorar o desempenho e a robustez do modelo. Após a conclusão do treinamento do modelo, selecionando diferentes limites, imagens de modelos humanos com diferentes níveis estéticos podem ser colocadas em camadas.
▐Fase de teste
-
Versatilidade de ajuste: teste o [modelo inteligente Qianniu] interno do Taobao e os modelos externos de terceiros do Taobao na plataforma Qianniu . O mesmo tipo de manequins foi avaliado e considerado compatível, mas houve diferenças significativas. Ao rastrear problemas específicos de imagens, descobrimos que a qualidade da imagem original enviada terá impacto na precisão. Para garantir a equidade, é necessário desenvolver padrões para atlas de testes. -
Teste de autenticidade : A taxa de precisão flutuará até certo ponto a cada semana e um conjunto de teste padrão será construído com base nas condições do modelo. Use 1.200 conjuntos de testes padrão para IA e pontuação manual (considerando que a dificuldade das imagens originais afetará o julgamento da IA, o conjunto de testes é dividido em três níveis: fácil, médio e difícil, com uma proporção de 1:1:1) . -
Teste rigoroso de pontuação de máquina: O modelo de pontuação ajustado pontuará automaticamente as imagens recém-geradas e as comparará com pontuações humanas.

Objetivo: Usar modelos estéticos para melhorar a taxa de bons desenhos de modelos grandes do Taobao AI.
▐Modelo estético versão 1.0 - aplicação de recursos de avaliação de imagens de IA:
-
Objetivo: Use o modelo estético para avaliar o modelo de geração Taobao, determinar a pontuação e os problemas de imagem e reparar os problemas de imagem identificados. -
Capacidade de julgamento: você pode pontuar imagens (1-5 pontos), selecionar imagens boas e ruins e orientar sugestões de otimização subsequentes para o modelo. -
Capacidade de reconhecimento: Atualmente, 5 atributos principais da tela podem ser realimentados. (1. Anormalidades nas mãos. 2. A pessoa não se mistura com o fundo. 3. Anormalidades no rosto. 4. Anormalidades no corpo. 5. Outros). -
修复能力:AIGC生成人物时画好的手一直是难点,人的手部自由度高且姿态复杂多变、图中占比小且细节多,导致画手的成功率不高。特别地,在实际业务中,由于用户上传的图片手部细节不明显或者手中拿着物品等复杂场景,在进行换模特换背景时,生成模型往往不能学到手部的准确细节特征导致画出不好的手。我们探索全新的手部修复技术方案。由 AI美学评价模型判断生成异常的手,对异常的手,利用3D手部状态重建模型保持正确的手指数量与手的形状,同时能够自适应生成图像中所需的手势。基于我们内部基底模型,融合Text Embedding,根据重建后的手部姿态重新绘制正常的手。经过反复调试参数和场景适配,我们的手部修复方案在业务数据上测试,修复成功率超过50%,可大幅度提高整体的生图良图率。手部修复的case如下:
▐ 美学模型2.0版本-应用原图评测能力
目标:调优淘宝基地模型,目前有混杂的原图数据集,数据集质量参差不齐,需要进行有效的筛选优化。
背景:目前原图数据集来源核心是两部分:视觉中国和淘宝模特图。
视觉中国的摄影图核心是供给给新闻稿做新闻配图,因此大量的图片为了营造故事性对人物和场景有独特的表达。淘宝模特图商家已经做了后期处理,有些诸如模特的处理已经比较夸张。筛选优质原图:通过原图判定模型,筛选优质摄影图,调优自研模型等数据集效果。提升生图的良图率。(如多人混乱、背景混乱,场景融合感等效果可提升)。
收集专业摄影原图:目前通过设计团队搜集优质的摄影模特图。-
1.0版本的AI美学评价模型影响生成模型,使生成模型自适应对齐人类偏好:AI美学评价可用于指导基于扩散的生成模型,不仅指导生成模型要生成高美学图像,也需要减少生成低美学图像的概率。为了解决这个问题,我们利用AI美学评价模型在低美学异常生成图像加上异常属性标签,增强模型学习异常生成图像概念的能力,可以在推理阶段避免。
第四步:升级淘宝风格模型
▐ 风格的背景情况
目前风格选择的丰富性不足,生图的场景和人物集中在特定的几个类型上。原先对于风格的设定采用穷举的方式。如背景生成的场景基本上是泳池、花园、商场、海滩、森林、雪山。
因为原图本身的来源关系,图片的地域场景特色基本是西式。诸如东南亚的海滩、欧式花园、美式商场、美式泳池、北欧雪山。
因为采用穷举的方式,导致工具的选择项过多,体验比较复杂,商家使用过程中会选择困难,采用不断尝试的方式。
▐ 风格的框架设定
-
对应美学标准的五大原则。进行细分的穷举,作为组合因子。 -
风格类型分为平台品牌风格、趋势热点风格、经典艺术风格三类。 -
基于风格趋向进行因子组合。形成风格的多元组合。

▐ 风格标准的运用

▐ 后续计划
美学标准:发布淘宝AI美学标准,联动中国美术学院完成。
风格标准:风格化标准完善,建立淘宝独有的风格体系。同时在产品侧进行测试。
-
产品能力:发布 AI paas产品能力,联动千牛产品团队部署上线,提供给集团相关自研AI与第三方AI进行服务,也同步提升兼容性。
本文分享自微信公众号 - 大淘宝技术(AlibabaMTT)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。