文生图——DALL-E 3 —论文解读——第一版

概述

    本文主要是DALL·E 3官方第一版技术报告(论文)的解读,原文《Improving Image Generation with Better Captions》论文解读。该文要提升文生图的效果,将技术点放到了,提升指令跟随能力上,然后顺藤摸瓜分为提升训练数据caption(使用模型合成caption),当然也要提升模型(关于模型结构、训练策略、数据集等都未做过多介绍,但是官方又明确提到,除了数据,模型也起到了不少的作用)。
    一句话省流版,数据方面,训练时使用95%模型(CoCa)合成详细描述caption + 5%原本人类 caption,测试时使用GPT-4v 扩写人类caption;模型方面使用T5xxl + vae encoder + diffusion latent + 自家decoder 取得最好效果。

效果

    参考几个之前公众号推出的测试效果:
    主要惊奇在他的指令跟随能力,以及可以连续对话(指令)的上下文语境理解能力。如下图:  
    当时作为初入小白的直观感受是:现在open AI 要杀入文生图领域,这种自然对话能力,会使得SD 系列变为远古方式。当时内心OS:Stable diffusion 系列的编码器还是open AI 上个世代的产物CLIP,盲猜他的文本编码器是GPT,结果这篇报告就被打脸。这里真实使用的时候使用了GPT-4v,但是不是直接使用文本编码器的特征向量,而是用其扩写(作者称为upsample)人工prompt(论文给了扩写模板),扩写生成的例子如下:
    

数据方面

    这篇报告也就主要讲两件事,都是针对文本captain(文本prompt):合成captain有没有用?如何和真实captain结合?

    合成captain有没有用

    为什么要合成caption

    现象:现有的文本到图像模型很难遵循详细的图像描述,并且经常忽略单词或混淆提示的含义。原因:我们假设这个问题源于训练数据集中的噪声和不准确的图像标题,其实就是现在的训练数据多为互联网爬取数据,这些数据的通常来源于人类作者,他们专注于对图像主题的简单描述,而忽略了图像中描绘的背景细节或常识关系,不描述背景、属性、颜色等详细信息,或者一些就是描述错误或者甚至一部分是广告。具体作者认为如下:
    *比如厨房里的水槽或人行道上的停车标志,以及对这些物体的描述。
    *对象在场景中的位置和这些对象的数量。
    *场景中物体的颜色和大小等常识性细节。
    *在图像中显示的文本。

    合成captain整体思路

    首先通过学习一个鲁棒图像描述器来产生准确、详细的图像描述。然后我们将此描述应用于数据集以生成更详细的标题。最终在改进的数据集上训练文本到图像的模型。然后,作者也知道这种思路其实并不新颖,除了论文提到的论文,像是BLIP 家族也都用了生成描述的方法。作者认为他们的创新点在于:建立一套生成描述性的图像描述系统,并测量在训练生成模型时使用合成字幕的影响;还为一系列评估建立了一个可重复的基准性能概要文件,这些评估用于测量提示执行情况。

    如何合成caption

    基础模型是Google 的CoCa,模型结构如下(FIgure2)。这里作者构建了两个数据集(未开源),对应finetune了两版描述器模型:
    *一个用于生成短(只描述图像主体)的图像描述(图中的SSC);
    *一个用于生成详细(不仅描述了图像的主题,还描述了图像的周围环境、背景、图像中的文本、样式、颜色等。)的图像描述(图中称为DSC),作者举了个例子如下图(Figure3)。
    

    合成caption实验结果

    这里初始合成caption实验也包含5%的原始caption,作者解释主要是为了防止模型过拟合到合成caption的某些范式,比如最常见的例子是合成的caption往往以"a"和"an”开头,相当于一种模型正则化。训练数据为50W张图片,测试图片为5W张,对应不同的描述。对比三个数据源训练的模型(关于模型后面模型部分讲):
    *只使用原生人工描述
    *5% 原生人工描述 + 95% 短描述(SSC)
    *5% 原生人工描述 + 95% 长描述(DSC)
    测试指标
    *CLIP分数。使用开源的CLIP ViT-B/32,计算文本和图像的相似度(5W张测试图,结果*100倍画图),左右不同点是,左边的测试文本是人工描述,右边是模型长描述。可见训练+测试使用模型长描述效果好。

    caption混合比例实验

    鉴于上个实验,这里混合的都是长描述+人。可见95%是一个比较好的混合比例,作者也尝试了65%,发现65%已经远远落后其他,这里没有画出来。评价指标和上面一样,也是CLIP分数。
    

    PS

    到这里,作者的合成caption实验就结束了:训练时使用95%模型(CoCa)合成详细描述caption + 5%原本人类 caption训练,合成详细描述caption测试实验最好。问题是,应用场景是文生图啊,正式用户推理时,是没有图的,单纯人写caption(prompt)又不好,怎么办呢?因为GPT系列已经可以用于写故事、写诗词等,具有想象力,所以让GPT-4v去扩写用户原本输入的prompt。
    

模型方面

    这个就先贴一下原始论文,一方面是因为确实论文就不想展开说,另一方面我现在也还不能理解那个“DALL-E 3 latent decoder ”到底是指整个diffusion 模型,还是vae的decoder。后续更新吧。
    

结果对比

    主要对比DALL-E 3、 DALL-E 2、Stable Diffusion XL 1.0 ( with the refiner module)。这个也是作者认为他们的主要贡献并且可以后续开源的部分。分为自动、人工两部分,原文也在附录部分展示了对应的prompt模板和人工高标注界面。

    自动评价指标

    这里使用图像文本对,指标有三个,如下:
    *CLIP score:依靠CLIP模型(ViT-B/32 ),评价整图和整句子相似性。
    *Drawbench:依靠GPT-4v,评价整图和扩充描述是否描述一致,原文附录给了对应的prompt。
    *T2I-CompBench:依靠BLIP-VQA,评价颜色、形状、纹理相似性。

    手工评价指标

    *指令跟随:向评分者展示文本到图像模型的完整上采样标题+生成图像,并要求“选择哪个图像更符合标题”。
    *风格:向评分者展示图像,并要求“选择哪个图像风格更喜欢”。
    *连贯性:向评分者展示图像,并要求“选选择哪个图像包含更连贯的对象”。一个“连贯”的物体是可能存在的物体。仔细观察人体的身体部位、面部和姿势、物体的位置和场景中的文字来做出判断。

    结果

    当然是DALL-E 3更好,具体如下:
    

局限性

    无非是文本生成模型(其中的LLM常见)如下:
    *空间感知能力:物品的位置不可靠,例如,使用“在左边”、“在下面”、“在后面”等词。这是由于合成captioner也有这个弱点:它在陈述物体放置时不可靠,这反映在我们的下游模型中。
    *文本渲染:会存在漏或者错。虽然作者在生成caption 的时候特别注意的涵盖了主要的文字,作者认为是T5编码器的问题,编码器需要把单词整个编码而不是字母级别。未来会探索字符级别的语言模型来提升字符渲染。
    *特异性:也就是幻觉,例如,给定一幅花的植物图,通常会产生植物属和物种的幻觉,并将其放在描述中。之后也是改进文本生成模型。
    *安全和偏见。

疑问

模型相关细节,decoder 是啥,只用vae 的encoder 不要匹配的docoder? 那怎么办,再联和训练?
真实训练时候数据集构成。

参考链接

猜你喜欢

转载自blog.csdn.net/u012863603/article/details/134028230
今日推荐