Die praktische Anwendung der bildgenerierenden KI-Ästhetik in Taobao





In diesem Artikel wird erläutert, wie ästhetische Standards formuliert und angewendet werden, um die Qualität von durch künstliche Intelligenz erzeugten Bildern zu bewerten und zu verbessern, insbesondere im Bereich des E-Commerce. Er ist hauptsächlich in vier Kategorien unterteilt: Formulierung ästhetischer Standards, Schulung ästhetischer Modelle und Anwendung ästhetischer Modelle und Aufrüstung von Modellen im Taobao-Stil.



Definition und Analyse der Ästhetik


  1. Bildqualitätsstandards: Im Rahmen des modernen Designs sind die definierten Bildqualitätsstandards grundsätzlich vereinheitlicht. Der Fokus auf die Definition von Fähigkeiten und Techniken erstreckt sich auch auf die Qualitätsbewertung von Bildern, Gemälden, Fotos und Bildern. Auf dieser Grundlage werden Anforderungen und Schwerpunkte auf die Eigenschaften der Bildherstellungsmittel gelegt.
  2. Bildinhaltsstandards: Die Anforderungen an die Ausdrucksqualität im Rahmen der Ideologie sind umfangreich, und Bildqualitätsstandards werden durchbrochen, um den Bedürfnissen des Inhaltsausdrucks gerecht zu werden. Es wird in der Regel von maßgeblichen Persönlichkeiten wie Kritikern oder Juroren der Branche definiert und interpretiert.


Ziele des Ästhetikprojekts


  1. Der erste Schritt besteht darin, ästhetische Standards zu formulieren : KI-Zeichenstandards und KI-Stilstandards zu formulieren und gemeinsam mit der China Academy of Art und Professoren zu forschen. Heben Sie Professionalität, Relevanz, Objektivität und Autorität hervor .

  2. Schritt 2 – Ästhetisches Modell trainieren: Entwickeln Sie ein ästhetisches Beurteilungsmodell basierend auf KI-Ästhetikstandards, damit die Maschine automatisch beurteilen und punkten kann.

  3. Schritt 3 – Anwenden des ästhetischen Modells: Leiten Sie die Optimierung und Aktualisierung des Taobao AI-Bilderzeugungsmodells basierend auf den Fähigkeiten des ästhetischen Modells.

  4. Schritt 4 – Taobao-Stilmodell aktualisieren: Richten Sie eine Taobao-Stilmodellbibliothek basierend auf Stilstandards ein, damit Händler ein reichhaltiges und vielfältiges Stilmodell zur Auswahl haben. Erstellen Sie ein Modell im Taobao-Stil.


Schritt eins: Ästhetische Standards entwickeln


Der Kriterienrahmen wird basierend auf den Komponenten „Bild“ definiert, wobei der Schwerpunkt auf KI-generierten Merkmalen liegt, um ästhetische Standards aufzubauen:

Bildkomposition: Objektform/Umgebung/Komposition/Licht und Schatten/Textur

Merkmale der KI-Generierung: Elementauthentizität und Szenenrationalität

KI-Ästhetikstandards: 5 Richtlinien, 19 Standards


Schritt 2: Trainieren Sie das ästhetische Modell


  1. Ziel des ästhetischen Modells: Verbesserung der Genauigkeit der automatischen maschinellen Bewertung und Beurteilung von Bildern.

  2. Genauigkeitsrate: Das gleiche Bild wird einer ästhetischen KI-Bewertung und einer manuellen Bewertung unterzogen, und es wird die Überlappungsrate zwischen menschlichen und maschinellen Bewertungen ermittelt.


▐Immersive Erfahrung  



Unser KI-Ästhetikbewertungsmodell verwendet multimodale ästhetische Vorschulungs- und Multitasking-Feinabstimmungs-Lernmethoden. Dies hat folgende Vorteile:

  1. Unser Modell verfügt über weniger Parameter, ermöglicht schnelle Trainingsiterationen und eine schnelle Inferenzgeschwindigkeit, kann hochästhetische Bilder schnell überprüfen und auch die Generierungseffekte verschiedener Generierungsmodelle bewerten, wodurch die Kosten für manuelle Anmerkungen und Überprüfungen reduziert werden.

  2. Im Vergleich zu Modellen, die nur ästhetische Bewertungen ausgeben, kann unser Modell abnormale Attribute generierter Bilder ausgeben, was eine bessere Interpretierbarkeit bietet;

  3. Die von unserem Modell ausgegebenen abnormalen Attribute können als Vordiskriminator für die Bildwiederherstellung verwendet werden und können auch zur Optimierung des Generierungsmodells für die Markierung abnormal generierter Bilder verwendet werden.


▐Trainingsprozess  


Entwickeln Sie Bewertungsspezifikationen basierend auf ästhetischen Standards und etablieren Sie eine 5-Punkte-Bewertungsregel, die von Designern markiert wird, um hochwertige KI-Trainingsdaten zu sammeln:
  1. Formulieren Sie Bewertungsregeln: Bewertungsspezifikationen für KI-generierte Bilder (5 Stufen) und Bewertungsregeln für das Screening von Originalbildern (3 Stufen).
  2. Fähigkeit, die Ästhetik des ursprünglichen Mannequin-Bildes zu bewerten: Basierend auf der Präferenz für Bildqualität wie Mannequin, Umgebung, Komposition, Licht und Schatten, Textur usw. wird ein spezielles ästhetisches Modell des ursprünglichen Mannequin-Bildes für die ästhetische Schichtung trainiert . Zu den filterbaren Typen mit geringer Ästhetik gehören verschwommene Bilder, Bilder oder Texturen mit weißem Rand, unvollständige oder beschnittene menschliche Gesichter, stark blockierte menschliche Körper, schlechte Hintergründe oder schlechte Gesamtästhetik usw.
  3. AIGC-Ästhetische Bewertungsfähigkeit von Rohbildern: Unsere AIGC-Ästhetische Bewertung von Rohbildern zielt hauptsächlich auf Rohbilder ab, die Zeichen enthalten. Ausgehend von zwei Aspekten, nämlich der Konzentration auf die Rationalität des Bildes und der Konzentration auf die Integration des Bildes, wird die Bewertung basierend formuliert auf 5 Hauptkriterien und 19 Standardregeln und markieren Sie gleichzeitig die abnormalen Attribute des Rohdiagramms. Zu den abnormalen Attributen, die derzeit von unserem Modell unterstützt werden, gehören abnormale Integration zwischen Personen und Hintergrund (in der Luft hängende Charaktere, schlechte Hintergrundtextur usw.), Handanomalien, Gesichtsanomalien, Gliedmaßenanomalien, andere Anomalien usw. Die ästhetische Bewertung der Ausgabe variiert von 1 bis 5 Punkten.

Abbildung: Bilder unterschiedlicher ästhetischer Bewertungen, die durch die AIGC-Rohbild-Ästhetikbewertung vorhergesagt wurden


Angemessene Schulung: Mehrere Runden der Übereinstimmungsüberprüfung zwischen Mensch und Maschine, um qualitativ hochwertige Daten sicherzustellen.

  1. 1 Runde Bewertungstest: Nehmen Sie die durchschnittliche Punktzahl von 3 Personen, um Daten zu sammeln und eine objektive Bewertung sicherzustellen. Der Abschnitt „Differenz“ interpretiert die spezifischen Problempunkte, die durch die Differenz entstehen, neu. Führen Sie die Überprüfung erneut durch. Stellen Sie sicher, dass die Interpretationen des Kodex durch verschiedene Personen konsistent und stabil sind (5-Punkte-System).

  2. 2 Runden der KI-Bewertungsüberprüfung: Nehmen Sie die durchschnittliche Bewertung von 3 Personen und lesen Sie sie mit der Maschine Korrektur. Wenn es einen Unterschied in der Bewertung gibt, interpretieren Sie die spezifischen Problempunkte des Unterschieds neu, um zu klären, ob es sich um ein menschliches Problem oder ein Maschinenproblem handelt. Sicherstellen, dass die beiden nach und nach konsistent sind und die Genauigkeit der Maschine gewährleistet ist. (Dies beginnt, sobald die erste Version des KI-Beurteilungsmodells verfügbar ist).


technischer Rahmen

  1. Ästhetische Bewertung der AIGC-Rohzeichnung: Basierend auf den vom Designer definierten 5-Punkte-Ästhetikkriterien, zugeordnet zu fünf Qualitätsstufen. Gleichzeitig führten wir eine induktive Analyse der generierten Daten durch und fassten fünf Hauptattribute zusammen: normal, abnormale Verschmelzung von Person und Hintergrund, Handanomalie, Gesichtskollaps, Körperanomalie und andere Anomalien. Das Qualitätsniveau und die Attributgründe werden kombiniert, um ein Eingabeaufforderungswort für die ästhetische Bewertung zu bilden, das als Eingabe für das multimodale Vortrainingsmodell verwendet wird. Die Verlustfunktion verwendet den ästhetischen Score-Regressionsverlust und den Attributgrund-Multi-Label-Klassifizierungsverlust.

  2. Ästhetische Bewertung des ursprünglichen Mannequin-Bildes: CLIP verfügt über eine gute Zero-Shot-Fähigkeit zur Gut/Schlecht-Klassifizierung im Hinblick auf die ästhetische Bewertung von Bildqualität, Farbe, Beleuchtung, Komposition, abstrakten Konzepten usw. Daher verbessern wir in der Vortrainingsphase die ästhetische Darstellungsfähigkeit des Rückgrats, indem wir den Bildencoder von CLIP destillieren. Die Feinabstimmungsphase nutzt das verbesserte Rückgrat, um den normalisierten ästhetischen Wert vorherzusagen. Die Verlustfunktion wird mit L1-Verlust und binärem Kreuzentropieverlust gewichtet, um die Leistung und Robustheit des Modells zu verbessern. Nach Abschluss des Modelltrainings können durch Auswahl verschiedener Schwellenwerte menschliche Modellbilder mit unterschiedlichen ästhetischen Ebenen überlagert werden.


▐Testphase​   


Analysieren Sie anhand der Testsituation aktuelle Maschinenprobleme oder menschliche Probleme und optimieren Sie kontinuierlich die Genauigkeit des Modells. Entwickeln Sie diesen Prozess kontinuierlich weiter und optimieren Sie ihn.
  1. Tuning-Vielseitigkeit: Testen Sie Taobaos internes [Qianniu Intelligent Model] und Taobaos externe Modelle von Drittanbietern auf der Qianniu-Plattform . Die gleichen Schaufensterpuppentypen wurden bewertet und als kompatibel befunden, es gab jedoch erhebliche Unterschiede. Beim Crawlen spezifischer Bildprobleme haben wir festgestellt, dass die Qualität des hochgeladenen Originalbilds Auswirkungen auf die Genauigkeit hat. Um Fairness zu gewährleisten, müssen Standards für Testatlanten entwickelt werden.
  2. Authentizitätstest der maschinellen Bewertung : Die Genauigkeitsrate schwankt jede Woche um ein gewisses Maß, und basierend auf den Modellbedingungen wird ein Standardtestsatz erstellt. Verwenden Sie 1.200 Standardtestsätze für KI und manuelle Bewertung (da die Schwierigkeit der Originalbilder die KI-Beurteilung beeinflusst, ist der Testsatz in drei Stufen unterteilt: leicht, mittel und schwer, mit einem Verhältnis von 1:1:1) .
  3. Strenger Test der maschinellen Bewertung: Das abgestimmte Bewertungsmodell bewertet neu generierte Bilder automatisch und vergleicht sie mit menschlichen Bewertungen.


Schritt drei: Anwenden des ästhetischen Modells


Ziel: Verwenden Sie ästhetische Modelle, um die Rate guter Zeichnungen großer Taobao AI-Modelle zu verbessern.


▐Ästhetisches Modell Version 1.0 – Anwendung von KI-Bildauswertungsfunktionen:  


  1. Ziel: Verwenden Sie das ästhetische Modell, um das Taobao-Generationsmodell zu bewerten, Bildbewertungen und Bildprobleme zu ermitteln und die identifizierten Bildprobleme zu beheben.
  2. Urteilsfähigkeit: Sie können Bilder bewerten (1–5 Punkte), gute und schlechte Bilder aussortieren und nachfolgende Optimierungsvorschläge für das Modell anleiten.
  3. Erkennungsfähigkeit: Derzeit können 5 wichtige Bildschirmattribute rückgemeldet werden. (1. Anomalien an den Händen. 2. Die Person fügt sich nicht in den Hintergrund ein. 3. Anomalien im Gesicht. 4. Anomalien am Körper. 5. Andere).
  4. 修复能力:AIGC生成人物时画好的手一直是难点,人的手部自由度高且姿态复杂多变、图中占比小且细节多,导致画手的成功率不高。特别地,在实际业务中,由于用户上传的图片手部细节不明显或者手中拿着物品等复杂场景,在进行换模特换背景时,生成模型往往不能学到手部的准确细节特征导致画出不好的手。我们探索全新的手部修复技术方案。由 AI美学评价模型判断生成异常的手,对异常的手,利用3D手部状态重建模型保持正确的手指数量与手的形状,同时能够自适应生成图像中所需的手势。基于我们内部基底模型,融合Text Embedding,根据重建后的手部姿态重新绘制正常的手。经过反复调试参数和场景适配,我们的手部修复方案在业务数据上测试,修复成功率超过50%,可大幅度提高整体的生图良图率。手部修复的case如下:


  美学模型2.0版本-应用原图评测能力


  1. 目标:调优淘宝基地模型,目前有混杂的原图数据集,数据集质量参差不齐,需要进行有效的筛选优化。

  2. 背景:目前原图数据集来源核心是两部分:视觉中国和淘宝模特图。
    视觉中国的摄影图核心是供给给新闻稿做新闻配图,因此大量的图片为了营造故事性对人物和场景有独特的表达。淘宝模特图商家已经做了后期处理,有些诸如模特的处理已经比较夸张。

  3. 筛选优质原图:通过原图判定模型,筛选优质摄影图,调优自研模型等数据集效果。提升生图的良图率。(如多人混乱、背景混乱,场景融合感等效果可提升)。
    收集专业摄影原图:目前通过设计团队搜集优质的摄影模特图。

  4. 1.0版本的AI美学评价模型影响生成模型,使生成模型自适应对齐人类偏好:AI美学评价可用于指导基于扩散的生成模型,不仅指导生成模型要生成高美学图像,也需要减少生成低美学图像的概率。为了解决这个问题,我们利用AI美学评价模型在低美学异常生成图像加上异常属性标签,增强模型学习异常生成图像概念的能力,可以在推理阶段避免。


第四步:升级淘宝风格模型


目标:打造淘宝特色风格模型。
风格标准的归纳:风格框架已经设定完成,内容量较大,将联动校企合作研究生,根据我们的要求逐步填充风格内容。

  风格的背景情况


  1. 目前风格选择的丰富性不足,生图的场景和人物集中在特定的几个类型上。原先对于风格的设定采用穷举的方式。如背景生成的场景基本上是泳池、花园、商场、海滩、森林、雪山。

  2. 因为原图本身的来源关系,图片的地域场景特色基本是西式。诸如东南亚的海滩、欧式花园、美式商场、美式泳池、北欧雪山。

  3. 因为采用穷举的方式,导致工具的选择项过多,体验比较复杂,商家使用过程中会选择困难,采用不断尝试的方式。


  风格的框架设定


  1. 对应美学标准的五大原则。进行细分的穷举,作为组合因子。
  2. 风格类型分为平台品牌风格、趋势热点风格、经典艺术风格三类。
  3. 基于风格趋向进行因子组合。形成风格的多元组合。


  风格标准的运用


基于前台AI产品进行风格应用。通过用户使用数据反馈,进行风格的排序与汰换。逐步累积商家需要的风格。


  后续计划


  1. 美学标准:发布淘宝AI美学标准,联动中国美术学院完成。

  2. 风格标准:风格化标准完善,建立淘宝独有的风格体系。同时在产品侧进行测试。

  3. 产品能力:发布 AI paas产品能力,联动千牛产品团队部署上线,提供给集团相关自研AI与第三方AI进行服务,也同步提升兼容性。


¤  拓展阅读  ¤

3DXR技术 |  终端技术 |  音视频技术
服务端技术  |  技术质量 |  数据算法



本文分享自微信公众号 - 大淘宝技术(AlibabaMTT)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

Linus 亲自动手,阻止内核开发者用空格替换制表符 父亲是少数会写代码的领导人、次子是开源科技部主管、幼子是开源核心贡献者 华为:用 1 年时间将 5000 个常用手机应用全面迁移至鸿蒙 Java 是最容易出现第三方漏洞的语言 鸿蒙之父王成录:开源鸿蒙是我国基础软件领域唯一一次架构创新 马化腾周鸿祎握手“泯恩仇” 前微软开发人员:Windows 11 性能“糟糕得可笑” 虽然老乡鸡开源的不是代码,但背后的原因却让人很暖心 Meta Llama 3 正式发布 谷歌宣布进行大规模重组
{{o.name}}
{{m.name}}

Ich denke du magst

Origin my.oschina.net/u/4662964/blog/11054257
Empfohlen
Rangfolge